论文见解:REACT:在语言模型中协同推理和行动

摘要

我阅读了普林斯顿大学和谷歌大脑研究人员的《REACT:在语言模型中协同推理和行动》。该论文发表在 ICLR 2023 上,讨论了一种 LLM 提示方法,该方法帮助 LLM 在需要推理和行动的复杂环境中表现良好。

人类可以轻松地将以任务为导向的行动与口头推理结合起来。行动和推理之间的这种协同作用使人类能够快速学习新任务,并针对看不见的情况做出稳健的决策。

一、目前存在的问题:

诸如"思维链"之类的提示方法是黑匣子,这意味着模型使用内部表示来生成思想,而不是使用外部世界。这可能导致幻觉,正如本文后面所见。

预训练模型以前曾用于在交互式环境中进行规划和行动。他们将多模态观察结果转换为文本,并使用语言模型生成作(WebGPT、作为零样本规划器的语言模型、保持冷静和探索)。确实会出现一些问题。这些预训练模型尚未利用语言模型来执行抽象推理。他们缺乏工作记忆,这对于长期任务很重要。最后,他们缺乏对复杂环境的探索。

二、提出的解决方案:ReAcT(推理 + 行动)

ReAcT 提示 LLM 生成与任务相关的口头推理跟踪和作,以便模型显示高级推理。ReAcT 为行动(行动的理由)以及与环境交互以检索推理的附加信息(行动到理由)创建高级计划。该论文对以下内容进行了测试:

• 问答(HotputQA 数据集)

• 事实验证(FEVER数据集)

• 基于文本的游戏(ALFWorld)

• 网页导航(Webshop)

三、技术实现:

在每个时间步长 t 上,代理都会收到一个 O o_t ∈观察。代理执行 B a_t ∈作,其中 B = A ∪ L。

• A:与外部环境相互作用的行动空间。

• L:用于推理思想的语言空间。

代理根据策略行事( π(a_t | c_t) ):

• c_t = (o_1, a_1, ... , o_t-1, a_t-1) 是时间 t 的上下文。

• a_t要么是推理,要么是行动。

该策略使用冻结的 LLM(论文中的 PaLM)来实现。LLM 会提示一些人工注释的上下文演示。然后模型将生成下一个自回归的标记,无论是想法还是行动。

行动a_t∈A 会在上下文中引起新的 o_t+1,而思想 (a_t∈L) 则不会。

优势:

• 直观且易于设计的 ReAcT 提示。

• 通用和灵活

• 健壮,可以很好地推广到新任务。

四、实验设计与结果

1、在 ReAcT 上测试的任务:知识密集型推理任务:

• 使用HotPotQA和FEVER数据集。

作者设计了一个具有 3 个功能的维基百科 API:

• search[unity]:返回前 5 个 wiki 页面或 5 个类似的 wiki 页面。

• lookup[string]:返回包含字符串的页面中的下一个句子。

• finish[answer]:使用答案完成当前任务。

• 目的是模拟人类如何与维基百科互动。

对于少量学习,他们从 HotPotQA 中获取了 6 个示例,从 FEVER 中获取了 3 个示例,每个示例包含多个动作观察步骤。

消融部分:

用于通过删除某些组件来针对 ReAcT 进行计算的基线模型。

• 标准提示:基本提示(无思想、无行动、无观察)。

• 思维链:删除动作和观察,只保留推理。CoT-SC:生成 21 种不同的推理路径并进行多数投票,这有利于减少幻觉。

• 仅行动提示 (ACT):在删除想法的同时保留行动和观察。

当 ReAcT 未能在给定步骤内返回时,使用 CoT-SC。如果来自 n 个 CoT-SC 样品的大多数答案出现少于 n/2 次,则再次使用 ReAcT,这表明存在一定的不确定性。

结果:

• ReAcT 的表现始终优于 ACT。

• 幻觉是 CoT 的一个问题。

• 通过搜索检索知识对于 ReAcT 来说很重要。

• ReAcT + CoT-SC 在微调方面表现最佳。

2 在 ReAcT 上测试的任务:决策任务:

用于决策任务的数据集:ALFWorld 和 Webshop。

ALFWorld:模拟基于文本的家务。

• 一个任务实例最多可以有 50 个不同的家庭位置,这会导致 50 个步骤。

• 作者从训练数据中随机选择了 3 个任务,并包括稀疏的思想(关键推理步骤)来指导智能体。他们通过要求智能体分解目标、跟踪子目标完成情况、确定下一个子目标和常识性推理来做到这一点。

• 3 个随机任务作为少量示例,以便代理可以推广到新情况。

结果:

• 使用 ReAcT 提示的最佳跟踪导致 71% 的成功率,最差的跟踪导致 48% 的成功率。

• ReAcT 的表现优于 ACT(47%)和 BUTLER(37%)

• ACT 无法分解复杂的目标,而 ReAcT 则使用思考和推理。

相关推荐
Antonio9151 天前
【图像处理】图像的基础几何变换
图像处理·人工智能·计算机视觉
新加坡内哥谈技术1 天前
Perplexity AI 的 RAG 架构全解析:幕后技术详解
人工智能
武子康1 天前
AI研究-119 DeepSeek-OCR PyTorch FlashAttn 2.7.3 推理与部署 模型规模与资源详细分析
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
Sirius Wu1 天前
深入浅出:Tongyi DeepResearch技术解读
人工智能·语言模型·langchain·aigc
忙碌5441 天前
AI大模型时代下的全栈技术架构:从深度学习到云原生部署实战
人工智能·深度学习·架构
LZ_Keep_Running1 天前
智能变电巡检:AI检测新突破
人工智能
InfiSight智睿视界1 天前
AI 技术助力汽车美容行业实现精细化运营管理
大数据·人工智能
没有钱的钱仔1 天前
机器学习笔记
人工智能·笔记·机器学习
听风吹等浪起1 天前
基于改进TransUNet的港口船只图像分割系统研究
人工智能·深度学习·cnn·transformer
化作星辰1 天前
深度学习_原理和进阶_PyTorch入门(2)后续语法3
人工智能·pytorch·深度学习