论文链接:https://openreview.net/forum?id=WE_vluYUL-X

数据集HotpotQA
数据集 hotpotQA 是专门用于多跳问答的数据集,它必须经过多步推理,才能得到答案

所以它是专门为多步推理,外部检索设计的
思考阶段
prompt 设计,在传输给 llm 之前,prompt 做了一下拼接
首先定义规则,告诉 llm 如何使用 React 框架语言,明确定义只能调用这 3 个函数
1.search[entity]
2.lookup[keyword]
3.finish[answer]

之后还拼接了webthink_simple6 中的内容,做一个 few-shot 实例给 llm

最终拼接为 prompt,并添加格式化字符串f"Thought {i}:",告诉 llm 直接从 thought 开始写,并注意编号

经过分划,分别得到 thought、和 action

为什么要 llm 输出中截断 Observation 字段?
这是 react 框架的一个关键设计,为了保证Observation 必须来自环境(wikienv),而不是 LLM 自己编,传入 action,并且修改 Search 为 search,同时保留 search 中的参数,实体名大小写不被破坏
执行阶段
执行维基百科 api 搜索阶段

对于 search_step 需要进行一些修改,传入 headers 字段,以应对最新的反爬机制
对 serach_step 函数逻辑做了一些修改后
search_step 执行对维基百科网站的请求,搜索 llm 写的 search 中的 entity 字段,如果 entity 匹配维基百科搜索页面的标题则完成精确匹配,返回 page ,page 经过去除换行,空白字符后作为 obs 返回,即 observation 给到 llm

再拼接之前的 thought 和 action,observation 回到循环开始处,交由 llm 进行思考下一步策略

如果某次执行的 action 为 finish,则表明 llm 认为找到了答案,此时在路由函数 step 中走到 finish 分支,会叫停循环,并在 wrappers.py 中完成评分
运行实例

通过这个比较任务,直观感受 react 框架,思考->执行->观察的工作流
第一次思考,得出先查询Scott Derrickson 的信息,给出Search[Scott Derrickson]

调用 search 工具
得到精确匹配的结果作为观察结果

输入到第二次 llm 调用后,得到以下思考

工具调用

第三次思考,任务结束

与标准答案对比后,得出答案正确,reward 为 1,f1socre 为 1
