ReAct源码解读-一轮循环

论文链接:https://openreview.net/forum?id=WE_vluYUL-X

数据集HotpotQA

数据集 hotpotQA 是专门用于多跳问答的数据集,它必须经过多步推理,才能得到答案

所以它是专门为多步推理,外部检索设计的

思考阶段

prompt 设计,在传输给 llm 之前,prompt 做了一下拼接

首先定义规则,告诉 llm 如何使用 React 框架语言,明确定义只能调用这 3 个函数

1.search[entity]

2.lookup[keyword]

3.finish[answer]

之后还拼接了webthink_simple6 中的内容,做一个 few-shot 实例给 llm

最终拼接为 prompt,并添加格式化字符串f"Thought {i}:",告诉 llm 直接从 thought 开始写,并注意编号

经过分划,分别得到 thought、和 action

为什么要 llm 输出中截断 Observation 字段?

这是 react 框架的一个关键设计,为了保证Observation 必须来自环境(wikienv),而不是 LLM 自己编,传入 action,并且修改 Search 为 search,同时保留 search 中的参数,实体名大小写不被破坏

执行阶段

执行维基百科 api 搜索阶段

对于 search_step 需要进行一些修改,传入 headers 字段,以应对最新的反爬机制

对 serach_step 函数逻辑做了一些修改后

search_step 执行对维基百科网站的请求,搜索 llm 写的 search 中的 entity 字段,如果 entity 匹配维基百科搜索页面的标题则完成精确匹配,返回 page ,page 经过去除换行,空白字符后作为 obs 返回,即 observation 给到 llm

再拼接之前的 thought 和 action,observation 回到循环开始处,交由 llm 进行思考下一步策略

如果某次执行的 action 为 finish,则表明 llm 认为找到了答案,此时在路由函数 step 中走到 finish 分支,会叫停循环,并在 wrappers.py 中完成评分

运行实例

通过这个比较任务,直观感受 react 框架,思考->执行->观察的工作流

第一次思考,得出先查询Scott Derrickson 的信息,给出Search[Scott Derrickson]

调用 search 工具

得到精确匹配的结果作为观察结果

输入到第二次 llm 调用后,得到以下思考

工具调用

第三次思考,任务结束

与标准答案对比后,得出答案正确,reward 为 1,f1socre 为 1

相关推荐
Tutankaaa几秒前
知识竞赛题库设计全攻略
人工智能·算法
TImCheng06098 分钟前
职场人AI学习周期评估:不同学习路径的时间成本
人工智能·学习
m0_4665252924 分钟前
酷特AGI:从“自家试验田”到“全球输出”
大数据·人工智能·agi
星爷AG I24 分钟前
20-1 记忆概览(AGI基础理论)
人工智能·agi
锕琅26 分钟前
OpenAI Codex使用教程-GPT功能配置
人工智能·gpt·codex
鹏子训28 分钟前
AI记忆新思路:用SQLite替代向量数据库,去EMBEDDINGS化,谷歌开源Google Always On Memory Agent
数据库·人工智能·sqlite·embedding
xyz59930 分钟前
ONNX Runtime(ORT) C++ Windows 深度学习模型部署简易教程
人工智能·深度学习
市象31 分钟前
AI带给TCL空调的头部假想
大数据·人工智能
武汉知识图谱科技41 分钟前
国家首次探索“词元交易”:大模型时代的知识产权困境与知识图谱的“价值锚定”机会
人工智能·知识图谱
实在智能RPA44 分钟前
金融行业财务审核自动化工具推荐:2026企业级AI Agent与智能合规选型指南
人工智能·ai·金融·自动化