LARGE LANGUAGE MODELS AS OPTIMIZERS

本文是LLM系列文章,针对《LARGE LANGUAGE MODELS AS OPTIMIZERS》的翻译。

作为优化器的大型语言模型

  • 摘要
  • [1 引言](#1 引言)
  • [2 OPRO:LLM作为优化器](#2 OPRO:LLM作为优化器)
  • [3 激励性例子:数学优化](#3 激励性例子:数学优化)
  • [4 应用:提示优化](#4 应用:提示优化)
  • [5 提示优化实验](#5 提示优化实验)
  • [6 相关工作](#6 相关工作)
  • [7 结论](#7 结论)

摘要

优化无处不在。虽然基于导数的算法是解决各种问题的强大工具,但梯度的缺乏给许多现实世界的应用带来了挑战。在这项工作中,我们提出了PROmpting优化(OPRO),这是一种利用大型语言模型(LLM)作为优化器的简单有效的方法,其中优化任务用自然语言描述。在每个优化步骤中,LLM都会从包含先前生成的解决方案及其值的提示中生成新的解决方案,然后对新解决方案进行评估,并将其添加到下一个优化步骤的提示中。我们首先展示了关于线性回归和旅行推销员问题的OPRO,然后继续进行提示优化,目标是找到最大限度提高任务准确性的指令。通过各种LLM,我们证明了OPRO优化的最佳提示在GSM8K上比人类设计的提示高出8%,在Big Bench Hard任务上高出50%。

1 引言

2 OPRO:LLM作为优化器

3 激励性例子:数学优化

4 应用:提示优化

5 提示优化实验

6 相关工作

7 结论

我们开始使用LLM作为优化器,LLM逐渐生成新的解决方案来优化目标函数。我们首先用线性回归和旅行推销员问题来激励OPRO,然后将其作为一个具体应用来进行提示优化。我们的评估表明,LLM有能力根据过去的优化轨迹逐步改进生成的解决方案。有趣的是,在小规模旅行推销员问题上,OPRO的性能与一些手工制作的启发式算法不相上下。在提示优化方面,优化后的提示显著优于GSM8K和Big Bench Hard上的人工设计提示,有时超过50%。

许多尚未解决的问题有待于未来对LLM进行优化研究。总的来说,如何降低对初始化的敏感性,更好地平衡开采与勘探,仍然是一个挑战。具体来说,对于提示优化,我们当前实现的一个限制是优化器LLM不能有效地利用训练集中的错误案例来推断有希望的方向,以改进生成的指令。在我们的实验中,我们尝试在元提示中包括错误案例,而不是在每个优化步骤从训练集中随机采样,但结果是相似的,这表明错误案例本身的信息不足以让优化器LLM掌握错误预测的原因。另一个限制是,提示优化需要训练集来计算指导优化过程的准确性。目前,训练集至少包含数十个样本,因此优化后的提示不会严重过拟合到训练样本。一个有希望的方向是,除了汇总的准确性之外,还包含关于错误情况的更丰富的反馈,并总结优化轨迹中区分高质量和低质量生成提示的关键特征。这样的信息可以通知优化器LLM如何比过去生成的指令更有效地改进,并且潜在地进一步减少提示优化所需的示例集大小。

相关推荐
一个处女座的程序猿1 天前
LLMs之SLMs:《Small Language Models are the Future of Agentic AI》的翻译与解读
人工智能·自然语言处理·小语言模型·slms
档案宝档案管理1 天前
档案宝:企业合同档案管理的“安全保险箱”与“效率加速器”
大数据·数据库·人工智能·安全·档案·档案管理
IT_Beijing_BIT1 天前
TensorFlow Keras
人工智能·tensorflow·keras
mit6.8241 天前
[手机AI开发sdk] 安卓上的Linux环境
人工智能·智能手机
张较瘦_1 天前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
望十五江洋1 天前
泊松分布的参数可加性
线性代数·机器学习·概率论
小雨青年1 天前
Cursor 项目实战:AI播客策划助手(二)—— 多轮交互打磨播客文案的技术实现与实践
前端·人工智能·状态模式·交互
西西弗Sisyphus1 天前
线性代数 - 初等矩阵
人工智能·线性代数·机器学习
weixin_429630261 天前
第6章 支持向量机
算法·机器学习·支持向量机
王哈哈^_^1 天前
【数据集】【YOLO】【目标检测】共享单车数据集,共享单车识别数据集 3596 张,YOLO自行车识别算法实战训推教程。
人工智能·算法·yolo·目标检测·计算机视觉·视觉检测·毕业设计