ReAct源码解读-一轮循环

论文链接:https://openreview.net/forum?id=WE_vluYUL-X

数据集HotpotQA

数据集 hotpotQA 是专门用于多跳问答的数据集,它必须经过多步推理,才能得到答案

所以它是专门为多步推理,外部检索设计的

思考阶段

prompt 设计,在传输给 llm 之前,prompt 做了一下拼接

首先定义规则,告诉 llm 如何使用 React 框架语言,明确定义只能调用这 3 个函数

1.search[entity]

2.lookup[keyword]

3.finish[answer]

之后还拼接了webthink_simple6 中的内容,做一个 few-shot 实例给 llm

最终拼接为 prompt,并添加格式化字符串f"Thought {i}:",告诉 llm 直接从 thought 开始写,并注意编号

经过分划,分别得到 thought、和 action

为什么要 llm 输出中截断 Observation 字段?

这是 react 框架的一个关键设计,为了保证Observation 必须来自环境(wikienv),而不是 LLM 自己编,传入 action,并且修改 Search 为 search,同时保留 search 中的参数,实体名大小写不被破坏

执行阶段

执行维基百科 api 搜索阶段

对于 search_step 需要进行一些修改,传入 headers 字段,以应对最新的反爬机制

对 serach_step 函数逻辑做了一些修改后

search_step 执行对维基百科网站的请求,搜索 llm 写的 search 中的 entity 字段,如果 entity 匹配维基百科搜索页面的标题则完成精确匹配,返回 page ,page 经过去除换行,空白字符后作为 obs 返回,即 observation 给到 llm

再拼接之前的 thought 和 action,observation 回到循环开始处,交由 llm 进行思考下一步策略

如果某次执行的 action 为 finish,则表明 llm 认为找到了答案,此时在路由函数 step 中走到 finish 分支,会叫停循环,并在 wrappers.py 中完成评分

运行实例

通过这个比较任务,直观感受 react 框架,思考->执行->观察的工作流

第一次思考,得出先查询Scott Derrickson 的信息,给出Search[Scott Derrickson]

调用 search 工具

得到精确匹配的结果作为观察结果

输入到第二次 llm 调用后,得到以下思考

工具调用

第三次思考,任务结束

与标准答案对比后,得出答案正确,reward 为 1,f1socre 为 1

相关推荐
液态不合群2 小时前
OpenCV多线程编程:从单线程到多线程的视频处理
人工智能·opencv·音视频
ZPC82102 小时前
OLOv11 + 深度相机的方案实现高精度3D定位
人工智能·数码相机·算法·机器人
星辰yzy2 小时前
个人用户怎么选AI套餐更划算
人工智能
weixin_457760002 小时前
基于pytorch实现LPR模型车牌识别
人工智能·pytorch·python·深度学习·lpr
市象2 小时前
AWE观察:一面“魔镜”照亮全屋智能,AI卫浴迎来新场景
人工智能·健康医疗·制造
Dfreedom.2 小时前
机器学习经典算法全景解析与演进脉络(监督学习篇)
人工智能·学习·算法·机器学习·监督学习
华农DrLai2 小时前
什么是Prompt注入攻击?为什么恶意输入能操控AI行为?
人工智能·深度学习·大模型·nlp·prompt
吃杠碰小鸡2 小时前
Python+Ai学习流程
人工智能·python·学习
奔袭的算法工程师2 小时前
用AI写天线阵列排布算法
人工智能·算法·信号处理