论文地址:https://arxiv.org/pdf/2501.10120
Demo: https://pasa-agent.ai
github地址:https://github.com/bytedance/pasa
1. 背景与挑战
学术论文搜索是科研的核心环节,但面临诸多挑战:
- 长尾专业知识需求:需要涵盖广泛的领域知识和特定的研究方向。
- 全面性要求:需要全面覆盖相关研究,避免遗漏重要文献。
- 细粒度查询处理:需要精准理解并回答复杂的查询,例如:"哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习?"
现有的学术搜索引擎(如Google Scholar)虽然对一般查询有效,但在处理复杂查询时往往力不从心,导致研究人员需要花费大量时间进行文献综述。
2. PaSa:创新的学术论文搜索智能体
为了应对上述挑战,本文提出了 PaSa,一种基于大语言模型(LLM)的智能体,旨在模拟人类行为,实现全面且精准的学术论文搜索。
2.1 系统架构
PaSa 由两个 LLM 智能体组成:
- 爬虫(Crawler) :
- 功能:处理用户查询,调用搜索工具,读取论文并选择相关参考文献。
- 工作流程 :
- 接收用户查询,生成多个搜索查询并检索相关论文,将结果添加到论文队列中。
- 迭代处理论文队列中的每篇论文,导航引用网络以发现更多相关论文。
- 可以自主调用搜索工具、扩展引用或停止处理当前论文。
- 选择器(Selector) :
- 功能:仔细阅读论文队列中的每篇论文,判断其是否符合用户查询的要求。
- 输出:生成决策标记("True"或"False")以及支持该决策的理由。
2.2 训练方法
PaSa 在 AGILE(一种针对 LLM 智能体的强化学习框架)中进行优化。
-
爬虫训练:
-
数据 :使用 AutoScholarQuery 数据集,该数据集包含从顶级 AI 会议论文中收集的 35,000 多个细粒度学术查询和相应的论文。
-
构建方法:从论文的"相关工作"部分提取查询,并使用 GPT-4o 生成相应的搜索查询和答案。
-
示例:
查询 查询日期 答案论文 来源 哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习? 2023-08-10 [1] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism [2] Efficient Learning in Non-Stationary Linear Markov Decision Processes [3] Nonstationary Reinforcement Learning with Linear Function Approximation NeurIPS 2023
-
-
方法 :采用 会话级 PPO(近端策略优化) 算法,解决学术搜索任务中奖励稀疏和轨迹过长的问题。
- 奖励设计:奖励函数考虑了找到的相关论文数量和执行动作的成本,并使用选择器作为辅助奖励模型来缓解奖励稀疏问题。
- 训练过程:包括模仿学习和强化学习两个阶段。在强化学习阶段,使用蒙特卡洛采样来估计回报,并引入 KL 惩罚项以防止过度优化。
-
-
选择器训练:
- 采用 模仿学习 方法,使用包含 19,812 个 <用户查询,论文> 对的训练数据集进行训练,每个对都包含由 GPT-4o 生成的决策标记和理由。
3. 实验与结果
3.1 实验设置
- 模型:PaSa-7b 基于 Qwen2.5-7b 构建。
- 数据集 :
- AutoScholarQuery:用于训练和测试。
- RealScholarQuery :包含 50 个真实世界的学术查询,用于评估 PaSa 在现实场景中的表现。
- 构建方法:邀请 AI 研究人员使用 PaSa 演示版,并从他们提供的查询中随机抽取样本进行人工筛选,最终收集到 50 个细粒度且现实的查询。
- 相关论文收集:通过 PaSa、Google、Google Scholar、ChatGPT(启用搜索功能的 GPT-4o)以及 Google 与 GPT-4o 配对进行查询改写等多种方法检索相关论文,并由专业注释者进行审核。
3.2 评估指标
- 召回率(Recall) :衡量检索到的相关论文占所有相关论文的比例。
- @20、@50、@100:分别表示前 20、50、100 个检索结果的召回率。
- 精确率(Precision):衡量检索到的相关论文占所有检索到的论文的比例。
3.3 主要结果
-
AutoScholarQuery 测试集:
- PaSa-7b 在所有指标上均优于所有基线方法。
- 与最强的基线方法 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 9.64%,精确率相当。
- 与最强的基于 Google 的基线方法 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 33.80%、38.83% 和 42.64%。
- 使用多次爬虫集成可以进一步提高性能。
-
RealScholarQuery:
- PaSa-7b 在现实世界的学术搜索场景中表现出更大的优势。
- 与 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 30.36%,精确率提升了 4.25%。
- 与 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 37.78%、39.90% 和 39.83%。
3.4 消融研究
- 移除 [Expand] 操作:导致召回率显著下降,在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 22.98% 和 32.21%。
- 移除 RL 训练:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 6.24% 和 19.96%。
- 移除选择器作为辅助奖励模型:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 3.76% 和 9.63%。
4. 结论
PaSa 是一种创新的学术论文搜索智能体,能够:
- 自主使用在线搜索工具:通过生成多样化的搜索查询并调用搜索工具来检索相关论文。
- 阅读整篇论文并导航引用网络:深入挖掘相关文献,确保搜索结果的全面性和准确性。
- 提供精准的决策和解释:选择器不仅能判断论文是否符合查询要求,还能提供支持决策的理由,增强用户信任。
实验结果表明,PaSa 在多个指标上均优于现有的基线方法,显著提升了学术搜索的效率和准确性。
5. 视觉化展示
PaSa 爬虫的工作流程示例:
- 用户查询:用户输入查询"如何利用 LLM 对搜索结果进行排名"。
- 生成搜索查询 :爬虫生成多个相关的搜索查询,例如:
- "LLM 搜索结果排名方法"
- "基于 LLM 的搜索结果排序"
- "LLM 应用于搜索结果排序的研究"
- 检索论文:使用 Google 搜索这些查询,并从结果中检索相关论文。
- 扩展引用:对检索到的论文进行引用网络扩展,查找更多相关文献。
- 选择相关论文:选择器评估每篇论文是否满足用户查询的要求,并将其添加到最终结果中。
6. 未来展望
PaSa 的成功展示了 LLM 在学术搜索领域的巨大潜力。未来研究方向包括:
- 多模态搜索:整合文本、图像、视频等多种信息源,实现更全面的搜索。
- 个性化搜索:根据用户的偏好和研究领域,提供更精准的搜索结果。
- 持续学习:随着新论文的不断发表,PaSa 需要具备持续学习的能力,以保持其搜索结果的时效性和准确性。