基于自动反馈的大语言模型纠错策略综述

本文"Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies"主要探讨了大语言模型(LLMs)的自我纠正策略,具体内容如下:

  1. 引言
    • LLMs的发展与问题:LLMs在NLP任务中表现出色,但存在如幻觉、推理不忠实、生成有害内容和不遵循规则等问题,这些问题阻碍了其在实际中的应用。
    • 自我纠正策略的兴起:为解决这些问题,一种流行的策略是让LLMs从反馈中学习,其中利用自动化反馈的自我纠正方法备受关注,因为它能减少对人工反馈的依赖,使基于LLM的解决方案更实用。
  2. 自动反馈纠正LLMs的分类法
    • 概念框架:提出了一个概念框架,将纠正LLMs的过程类比为医疗过程,涉及语言模型(患者)、评论模型(医生和诊断)和优化模型(治疗)三个部分。并基于此框架,从五个关键维度对现有方法进行分类,包括纠正的问题、反馈的来源和格式、反馈的使用时间以及如何用反馈纠正模型。
    • 具体分类
      • 纠正的问题:主要包括幻觉、推理不忠实、有毒有害内容和代码缺陷等四类错误。
      • 反馈的来源:分为人类反馈和自动化反馈,本文重点关注自动化反馈,其又可分为自反馈(来自LLM自身)和外部反馈(来自外部模型、工具或知识源)。
      • 反馈的格式:通常为标量值信号或自然语言,标量值反馈便于集成到训练/解码过程,但信息性较弱;自然语言反馈表达力更强,但收集难度较大。
      • 反馈的使用时间:分为训练时纠正、生成时纠正和事后纠正。训练时纠正理想但受限于实际情况;生成时纠正可在生成过程中利用反馈引导模型;事后纠正灵活性高,能利用自然语言反馈,增强解释性。
      • 用反馈纠正模型的方式:包括自我训练、生成后排序、反馈引导解码等多种具体策略,将在后续章节详细介绍。
  3. 训练时纠正
    • 从人类反馈中学习
      • 直接优化人类反馈:通过收集人类对模型输出的反馈,直接优化模型参数,但仅使用正数据进行微调可能限制模型识别和纠正错误的能力。
      • 奖励建模和RLHF:训练奖励模型来模拟人类反馈,然后使用强化学习算法优化模型,如RLHF及其变体在使LLMs更有益和减少有害性方面已被证明有效。
    • 利用自动化反馈学习
      • 外部指标指导:利用外部指标提供的反馈进行训练时纠正,多数方法采用非可微训练技术,如最小风险训练等,但可能导致模型对某些指标的鲁棒性不足。
      • 自我训练:利用语言模型自身的输出来提供反馈,如STaR、Huang等人的研究,通过选择正确答案的推理路径进一步微调LLM,或采用批判-修订-监督学习策略来减少有害响应,还有如AlpacaFarm、ReST等研究展示了LLMs通过自我训练实现自我改进的能力。
  4. 生成时纠正
    • 生成后排序:LLM生成多个候选输出,评论模型根据反馈选择最佳输出,常与思维链提示法结合用于复杂推理任务,不同作品中提出了多种评论模型,如DIVERSE、Weng等人、RR、LEVER、CodeT等。
    • 反馈引导解码:为解决生成后排序的局限性,该策略在生成过程中利用步级反馈提供细粒度指导,通过评论模型在每个推理步骤提供反馈,采用搜索算法引导解码过程,相关作品在获取评论模型的方法上有所不同,包括使用人类反馈、训练验证器、外部指标、外部知识和自我评估等,同时采用不同策略控制解码过程,如Tree-of-Thought采用广度优先搜索和深度优先搜索,GRACE和Xie等人采用波束搜索,CoRe和RAP采用蒙特卡洛树搜索。
  5. 事后纠正
    • 自我纠正:使用LLM生成反馈并改进自身输出,如Self-Refine、Clinical Self-Verification、Reflexion等研究,此策略对模型能力要求较高,较小的开源模型可能难以有效改进输出,SelFee提出通过训练模型模拟自我纠正过程。
    • 模型/工具作为反馈
      • 代码解释器:在代码生成中,常用程序执行器作为反馈源来改进初始代码,如Self-Edit、Self-Debug、ALGO等研究,还用于软件的形式验证。
      • 逻辑推理器:如Logic-LM和Baldur利用外部工具增强LLMs推理的准确性,通过将问题转换为逻辑形式并使用外部符号求解器进行推理,或利用现有搜索证明助手作为反馈源。
      • 外部知识:外部知识可用于检测和修正LLM输出中的事实性错误,如RARR、REFEED、LLM-Augmenter、FACTOOL等研究,通过检索证据来调查和修正输出。
      • 训练模型:微调专门的模型用于生成反馈,如CodeRL、REFINER、RL4F等研究,这些批评模型可与其他语言模型配对,在迭代优化循环中提供反馈。
      • 集成多种工具:CRITIC将多种工具集成在统一框架中,提供更全面的反馈。
    • 多智能体辩论:多个LLM实例相互提出和辩论各自的回答,以得出共同的最终答案,如Du等人、PRD、LM vs LM、Fu等人的研究,此方法在推理任务、检测事实性错误和模拟现实任务等方面具有应用潜力。
  6. 应用领域
    • 事实性纠正:许多自动化纠正策略可用于事实性检测和纠正,是LLM-based事实纠正或检查系统的基础。
    • 推理任务:LLMs在推理任务中需要识别和纠正中间推理错误,现有方法包括基于LLM的辩论技术和自优化技术,以及利用外部反馈的技术,但在更广泛的推理任务中的应用仍有待探索,尤其是归纳和溯因推理。
    • 代码合成:代码生成中纠正至关重要,LLMs可通过读取编译器错误等反馈进行自我纠正,也有研究利用更细粒度的反馈,如程序解释和与参考程序比较,但自我修复在反馈阶段存在瓶颈,且关于其在不同模型中的适用性存在疑问。
    • 其他应用
      • 开放式生成:用于纠正生成文本的主观质量,如有毒/有害输出、增强故事生成的叙事质量和优化对话中的回复生成,常依赖自然语言反馈和迭代优化策略。
      • 机器翻译:事后自我纠正概念在机器翻译中称为自动后期编辑(APE),已有多种方法用于训练模型修复翻译错误,包括学习人类校正数据或合成训练数据,以及利用LLMs的上下文学习能力进行后期编辑,同时训练时和解码时的纠正方法也被采用。
      • 总结:自动化模型纠正常用于确保生成摘要的事实性,包括训练时施加事实性约束和事后编辑纠正错误,近期研究还探索了使用强化学习来优化模型。
  7. 研究空白与未来方向
    • 理论依据:LLMs的自我纠正能力缺乏理论解释,未来研究可探索其与元认知意识和校准的关系,以及反馈信号整合与语言模型对齐的问题,包括如何有效生成提示指令等。
    • 自我纠正能力的测量:当前缺乏定量指标来理解和评估LLMs的自我纠正能力,未来需建立全面的评估框架和诊断基准,考虑任务复杂性、初始错误程度和自我纠正后的质量改进等因素。
    • 持续自我改进:LLMs在实际应用中需要持续自我改进,类似于持续学习,但目前自我训练研究集中于单次纠正,持续自我改进的稳定性和鲁棒性未知,未来可探索如何整合不同的自我纠正技术,如利用事后纠正收集训练数据,指导训练时纠正。
    • 结合模型编辑的自我纠正:模型编辑技术可实现细粒度纠正,避免大规模重新训练,将其纳入LLM自我纠正过程是未来研究方向,有助于理解自我纠正机制和减少副作用。
    • 多模态自我纠正:现有自我纠正策略多限于文本模态,未来可探索多模态LLMs的自我纠正能力,包括视觉反馈的纳入和通过自我纠正改进视觉-语言任务,但目前在多模态环境中的应用还不广泛,需深入理解其在不同模态中的通用性。
相关推荐
OpenCSG1 分钟前
CSGHub开源版本v1.2.0更新
人工智能
weixin_515202491 分钟前
第R3周:RNN-心脏病预测
人工智能·rnn·深度学习
Altair澳汰尔4 分钟前
数据分析和AI丨知识图谱,AI革命中数据集成和模型构建的关键推动者
人工智能·算法·机器学习·数据分析·知识图谱
AI视觉网奇25 分钟前
人脸生成3d模型 Era3D
人工智能·计算机视觉
call me by ur name28 分钟前
VLM--CLIP作分类任务的损失函数
人工智能·机器学习·分类
A懿轩A29 分钟前
C/C++ 数据结构与算法【栈和队列】 栈+队列详细解析【日常学习,考研必备】带图+详细代码
c语言·数据结构·c++·学习·考研·算法·栈和队列
Python机器学习AI33 分钟前
分类模型的预测概率解读:3D概率分布可视化的直观呈现
算法·机器学习·分类
吃个糖糖43 分钟前
34 Opencv 自定义角点检测
人工智能·opencv·计算机视觉
禁默43 分钟前
2024年图像处理、多媒体技术与机器学习
图像处理·人工智能·microsoft
KeepThinking!1 小时前
YOLO-World:Real-Time Open-Vocabulary Object Detection
人工智能·yolo·目标检测·多模态