ReAct源码解读-一轮循环

论文链接:https://openreview.net/forum?id=WE_vluYUL-X

数据集HotpotQA

数据集 hotpotQA 是专门用于多跳问答的数据集,它必须经过多步推理,才能得到答案

所以它是专门为多步推理,外部检索设计的

思考阶段

prompt 设计,在传输给 llm 之前,prompt 做了一下拼接

首先定义规则,告诉 llm 如何使用 React 框架语言,明确定义只能调用这 3 个函数

1.searchentity

2.lookupkeyword

3.finishanswer

之后还拼接了webthink_simple6 中的内容,做一个 few-shot 实例给 llm

最终拼接为 prompt,并添加格式化字符串f"Thought {i}:",告诉 llm 直接从 thought 开始写,并注意编号

经过分划,分别得到 thought、和 action

为什么要 llm 输出中截断 Observation 字段?

这是 react 框架的一个关键设计,为了保证Observation 必须来自环境(wikienv),而不是 LLM 自己编,传入 action,并且修改 Search 为 search,同时保留 search 中的参数,实体名大小写不被破坏

执行阶段

执行维基百科 api 搜索阶段

对于 search_step 需要进行一些修改,传入 headers 字段,以应对最新的反爬机制

对 serach_step 函数逻辑做了一些修改后

search_step 执行对维基百科网站的请求,搜索 llm 写的 search 中的 entity 字段,如果 entity 匹配维基百科搜索页面的标题则完成精确匹配,返回 page ,page 经过去除换行,空白字符后作为 obs 返回,即 observation 给到 llm

再拼接之前的 thought 和 action,observation 回到循环开始处,交由 llm 进行思考下一步策略

如果某次执行的 action 为 finish,则表明 llm 认为找到了答案,此时在路由函数 step 中走到 finish 分支,会叫停循环,并在 wrappers.py 中完成评分

运行实例

通过这个比较任务,直观感受 react 框架,思考->执行->观察的工作流

第一次思考,得出先查询Scott Derrickson 的信息,给出SearchScott Derrickson

调用 search 工具

得到精确匹配的结果作为观察结果

输入到第二次 llm 调用后,得到以下思考

工具调用

第三次思考,任务结束

与标准答案对比后,得出答案正确,reward 为 1,f1socre 为 1

相关推荐
m0_图灵灵4 分钟前
吴恩达《深度学习》之看懂 ResNet
人工智能·深度学习·学习笔记
AI客栈7 分钟前
AI 大模型网关架构:动态限频与负载均衡设计实战
人工智能
暗黑小白10 分钟前
第二篇:不碰模型,意图识别快 9 倍 —— P0→P1→P2 流水线设计
人工智能·架构·ai agent
happyprince14 分钟前
07_verl-Trainer模块详解
人工智能·架构·wpf·强化学习
花骨朵轻创18 分钟前
基于WeChatBot框架 API 封装的 Python SDK,提供简洁易用的接口调用方式
人工智能
deepdata_cn20 分钟前
面向AI Agent标准化工作环境构建的驾驭工程(Harness Engineering)
人工智能·harness engine
沪漂阿龙20 分钟前
Embedding:文本怎么变成向量?语义检索为什么能工作?
人工智能·python·embedding
me83223 分钟前
【AI面试】大模型面试60问(面试速记+详解)
人工智能·学习·ai
来自于狂人26 分钟前
第5章 记忆管理——让Agent记住事情
人工智能·算法·语言模型·自然语言处理
生信碱移27 分钟前
Vscode 连接 ipynb 选择内核无法自动显示 conda 环境对应的 python
服务器·人工智能·经验分享·vscode·python