LARGE LANGUAGE MODELS AS OPTIMIZERS

本文是LLM系列文章,针对《LARGE LANGUAGE MODELS AS OPTIMIZERS》的翻译。

作为优化器的大型语言模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 OPRO:LLM作为优化器](#2 OPRO:LLM作为优化器)
  • [3 激励性例子:数学优化](#3 激励性例子:数学优化)
  • [4 应用:提示优化](#4 应用:提示优化)
  • [5 提示优化实验](#5 提示优化实验)
  • [6 相关工作](#6 相关工作)
  • [7 结论](#7 结论)

摘要

优化无处不在。虽然基于导数的算法是解决各种问题的强大工具,但梯度的缺乏给许多现实世界的应用带来了挑战。在这项工作中,我们提出了PROmpting优化(OPRO),这是一种利用大型语言模型(LLM)作为优化器的简单有效的方法,其中优化任务用自然语言描述。在每个优化步骤中,LLM都会从包含先前生成的解决方案及其值的提示中生成新的解决方案,然后对新解决方案进行评估,并将其添加到下一个优化步骤的提示中。我们首先展示了关于线性回归和旅行推销员问题的OPRO,然后继续进行提示优化,目标是找到最大限度提高任务准确性的指令。通过各种LLM,我们证明了OPRO优化的最佳提示在GSM8K上比人类设计的提示高出8%,在Big Bench Hard任务上高出50%。

1 引言

2 OPRO:LLM作为优化器

3 激励性例子:数学优化

4 应用:提示优化

5 提示优化实验

6 相关工作

7 结论

我们开始使用LLM作为优化器,LLM逐渐生成新的解决方案来优化目标函数。我们首先用线性回归和旅行推销员问题来激励OPRO,然后将其作为一个具体应用来进行提示优化。我们的评估表明,LLM有能力根据过去的优化轨迹逐步改进生成的解决方案。有趣的是,在小规模旅行推销员问题上,OPRO的性能与一些手工制作的启发式算法不相上下。在提示优化方面,优化后的提示显著优于GSM8K和Big Bench Hard上的人工设计提示,有时超过50%。

许多尚未解决的问题有待于未来对LLM进行优化研究。总的来说,如何降低对初始化的敏感性,更好地平衡开采与勘探,仍然是一个挑战。具体来说,对于提示优化,我们当前实现的一个限制是优化器LLM不能有效地利用训练集中的错误案例来推断有希望的方向,以改进生成的指令。在我们的实验中,我们尝试在元提示中包括错误案例,而不是在每个优化步骤从训练集中随机采样,但结果是相似的,这表明错误案例本身的信息不足以让优化器LLM掌握错误预测的原因。另一个限制是,提示优化需要训练集来计算指导优化过程的准确性。目前,训练集至少包含数十个样本,因此优化后的提示不会严重过拟合到训练样本。一个有希望的方向是,除了汇总的准确性之外,还包含关于错误情况的更丰富的反馈,并总结优化轨迹中区分高质量和低质量生成提示的关键特征。这样的信息可以通知优化器LLM如何比过去生成的指令更有效地改进,并且潜在地进一步减少提示优化所需的示例集大小。

相关推荐
阿坡RPA2 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户27784491049932 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心2 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI4 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c5 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得2055 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清6 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh6 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员6 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物6 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技