ReAct源码解读-一轮循环

论文链接:https://openreview.net/forum?id=WE_vluYUL-X

数据集HotpotQA

数据集 hotpotQA 是专门用于多跳问答的数据集,它必须经过多步推理,才能得到答案

所以它是专门为多步推理,外部检索设计的

思考阶段

prompt 设计,在传输给 llm 之前,prompt 做了一下拼接

首先定义规则,告诉 llm 如何使用 React 框架语言,明确定义只能调用这 3 个函数

1.search[entity]

2.lookup[keyword]

3.finish[answer]

之后还拼接了webthink_simple6 中的内容,做一个 few-shot 实例给 llm

最终拼接为 prompt,并添加格式化字符串f"Thought {i}:",告诉 llm 直接从 thought 开始写,并注意编号

经过分划,分别得到 thought、和 action

为什么要 llm 输出中截断 Observation 字段?

这是 react 框架的一个关键设计,为了保证Observation 必须来自环境(wikienv),而不是 LLM 自己编,传入 action,并且修改 Search 为 search,同时保留 search 中的参数,实体名大小写不被破坏

执行阶段

执行维基百科 api 搜索阶段

对于 search_step 需要进行一些修改,传入 headers 字段,以应对最新的反爬机制

对 serach_step 函数逻辑做了一些修改后

search_step 执行对维基百科网站的请求,搜索 llm 写的 search 中的 entity 字段,如果 entity 匹配维基百科搜索页面的标题则完成精确匹配,返回 page ,page 经过去除换行,空白字符后作为 obs 返回,即 observation 给到 llm

再拼接之前的 thought 和 action,observation 回到循环开始处,交由 llm 进行思考下一步策略

如果某次执行的 action 为 finish,则表明 llm 认为找到了答案,此时在路由函数 step 中走到 finish 分支,会叫停循环,并在 wrappers.py 中完成评分

运行实例

通过这个比较任务,直观感受 react 框架,思考->执行->观察的工作流

第一次思考,得出先查询Scott Derrickson 的信息,给出Search[Scott Derrickson]

调用 search 工具

得到精确匹配的结果作为观察结果

输入到第二次 llm 调用后,得到以下思考

工具调用

第三次思考,任务结束

与标准答案对比后,得出答案正确,reward 为 1,f1socre 为 1

相关推荐
放下华子我只抽RuiKe5几秒前
React 从入门到生产(六):路由与导航
前端·人工智能·深度学习·react.js·前端框架·html·claude code
byzh_rc1 分钟前
[DL_Net从入门到入土] 生成对抗网络 GAN
人工智能·生成对抗网络·php
猫头虎3 分钟前
【Trea】Trea国内版|国际版|海外版下载|Mac版|Windows版|Linux下载配置教程
linux·人工智能·windows·macos·aigc·ai编程·agi
烟雨江南7854 分钟前
从转写到智能体决策:基于“灵声智库”与本地大模型(LLM)的政务热线智能分析与 RAG 知识库融合架构
人工智能·科技·架构·语音识别·政务·ai质检
大可ai中文版镜像5 分钟前
OpenAI Codex Desktop App 保姆级安装教程(Windows / Mac)
人工智能·macos·codex
YJlio6 分钟前
ChatGPT 2023年5月更新解读:iOS App上线,从网页产品扩展到移动端
人工智能·openai·ai工具·ios app·移动端语音输入·whisper产品分析
不懒不懒11 分钟前
Python+AI 大模型实现课堂教学质量智能分析|加权评分 + 自动诊断 + 改进建议
人工智能·python·深度学习·ai大模型·智慧教育·nlp算法
rosemary51211 分钟前
AI Infra 后端开发工程师 — 学习路线
人工智能·学习
oy_mail12 分钟前
当前主流大语言模型核心优势解析:Gemini、GPT与Claude的能力图谱
人工智能·媒体
极客老王说Agent13 分钟前
【企业级Agent】制造业生产预算智能管控系统使用教程:2026企业数智化转型全实战
人工智能·ai·chatgpt