PaSa：基于大语言模型的综合学术论文搜索智能体

论文地址：https://arxiv.org/pdf/2501.10120

Demo： https://pasa-agent.ai

github地址：https://github.com/bytedance/pasa

学术论文搜索是科研的核心环节，但面临诸多挑战：

现有的学术搜索引擎（如Google Scholar）虽然对一般查询有效，但在处理复杂查询时往往力不从心，导致研究人员需要花费大量时间进行文献综述。

为了应对上述挑战，本文提出了 PaSa，一种基于大语言模型（LLM）的智能体，旨在模拟人类行为，实现全面且精准的学术论文搜索。

PaSa 由两个 LLM 智能体组成：

爬虫（Crawler） ：
- 功能：处理用户查询，调用搜索工具，读取论文并选择相关参考文献。
- 工作流程 ：
  1. 接收用户查询，生成多个搜索查询并检索相关论文，将结果添加到论文队列中。
  2. 迭代处理论文队列中的每篇论文，导航引用网络以发现更多相关论文。
  3. 可以自主调用搜索工具、扩展引用或停止处理当前论文。
选择器（Selector） ：
- 功能：仔细阅读论文队列中的每篇论文，判断其是否符合用户查询的要求。
- 输出：生成决策标记（"True"或"False"）以及支持该决策的理由。

PaSa 在 AGILE（一种针对 LLM 智能体的强化学习框架）中进行优化。

爬虫训练：

数据：使用 AutoScholarQuery 数据集，该数据集包含从顶级 AI 会议论文中收集的 35,000 多个细粒度学术查询和相应的论文。

示例：

查询	查询日期	答案论文	来源
哪些研究关注了使用基于价值的方法，特别是基于置信上界（UCB）的算法进行非平稳强化学习？	2023-08-10	[1] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism [2] Efficient Learning in Non-Stationary Linear Markov Decision Processes [3] Nonstationary Reinforcement Learning with Linear Function Approximation	NeurIPS 2023

方法：采用 会话级 PPO（近端策略优化） 算法，解决学术搜索任务中奖励稀疏和轨迹过长的问题。
- 奖励设计：奖励函数考虑了找到的相关论文数量和执行动作的成本，并使用选择器作为辅助奖励模型来缓解奖励稀疏问题。
- 训练过程：包括模仿学习和强化学习两个阶段。在强化学习阶段，使用蒙特卡洛采样来估计回报，并引入 KL 惩罚项以防止过度优化。

选择器训练：
- 采用 模仿学习 方法，使用包含 19,812 个 <用户查询，论文> 对的训练数据集进行训练，每个对都包含由 GPT-4o 生成的决策标记和理由。

模型：PaSa-7b 基于 Qwen2.5-7b 构建。
数据集 ：
- AutoScholarQuery：用于训练和测试。
- RealScholarQuery ：包含 50 个真实世界的学术查询，用于评估 PaSa 在现实场景中的表现。
  - 构建方法：邀请 AI 研究人员使用 PaSa 演示版，并从他们提供的查询中随机抽取样本进行人工筛选，最终收集到 50 个细粒度且现实的查询。
  - 相关论文收集：通过 PaSa、Google、Google Scholar、ChatGPT（启用搜索功能的 GPT-4o）以及 Google 与 GPT-4o 配对进行查询改写等多种方法检索相关论文，并由专业注释者进行审核。

召回率（Recall） ：衡量检索到的相关论文占所有相关论文的比例。
- @20、@50、@100：分别表示前 20、50、100 个检索结果的召回率。
精确率（Precision）：衡量检索到的相关论文占所有检索到的论文的比例。

AutoScholarQuery 测试集：
- PaSa-7b 在所有指标上均优于所有基线方法。
- 与最强的基线方法 PaSa-GPT-4o 相比，PaSa-7b 在召回率上提升了 9.64%，精确率相当。
- 与最强的基于 Google 的基线方法 Google with GPT-4o 相比，PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 33.80%、38.83% 和 42.64%。
- 使用多次爬虫集成可以进一步提高性能。
RealScholarQuery：
- PaSa-7b 在现实世界的学术搜索场景中表现出更大的优势。
- 与 PaSa-GPT-4o 相比，PaSa-7b 在召回率上提升了 30.36%，精确率提升了 4.25%。
- 与 Google with GPT-4o 相比，PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 37.78%、39.90% 和 39.83%。

移除 [Expand] 操作：导致召回率显著下降，在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 22.98% 和 32.21%。
移除 RL 训练：召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 6.24% 和 19.96%。
移除选择器作为辅助奖励模型：召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 3.76% 和 9.63%。

PaSa 是一种创新的学术论文搜索智能体，能够：

实验结果表明，PaSa 在多个指标上均优于现有的基线方法，显著提升了学术搜索的效率和准确性。

PaSa 爬虫的工作流程示例：

用户查询：用户输入查询"如何利用 LLM 对搜索结果进行排名"。
生成搜索查询 ：爬虫生成多个相关的搜索查询，例如：
- "LLM 搜索结果排名方法"
- "基于 LLM 的搜索结果排序"
- "LLM 应用于搜索结果排序的研究"
检索论文：使用 Google 搜索这些查询，并从结果中检索相关论文。
扩展引用：对检索到的论文进行引用网络扩展，查找更多相关文献。
选择相关论文：选择器评估每篇论文是否满足用户查询的要求，并将其添加到最终结果中。

PaSa 的成功展示了 LLM 在学术搜索领域的巨大潜力。未来研究方向包括：