PaSa:基于大语言模型的综合学术论文搜索智能体

论文地址:https://arxiv.org/pdf/2501.10120

Demo: https://pasa-agent.ai

github地址:https://github.com/bytedance/pasa

1. 背景与挑战

学术论文搜索是科研的核心环节,但面临诸多挑战:

  • 长尾专业知识需求:需要涵盖广泛的领域知识和特定的研究方向。
  • 全面性要求:需要全面覆盖相关研究,避免遗漏重要文献。
  • 细粒度查询处理:需要精准理解并回答复杂的查询,例如:"哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习?"

现有的学术搜索引擎(如Google Scholar)虽然对一般查询有效,但在处理复杂查询时往往力不从心,导致研究人员需要花费大量时间进行文献综述。

2. PaSa:创新的学术论文搜索智能体

为了应对上述挑战,本文提出了 PaSa,一种基于大语言模型(LLM)的智能体,旨在模拟人类行为,实现全面且精准的学术论文搜索。

2.1 系统架构

PaSa 由两个 LLM 智能体组成:

  • 爬虫(Crawler)
    • 功能:处理用户查询,调用搜索工具,读取论文并选择相关参考文献。
    • 工作流程
      1. 接收用户查询,生成多个搜索查询并检索相关论文,将结果添加到论文队列中。
      2. 迭代处理论文队列中的每篇论文,导航引用网络以发现更多相关论文。
      3. 可以自主调用搜索工具、扩展引用或停止处理当前论文。
  • 选择器(Selector)
    • 功能:仔细阅读论文队列中的每篇论文,判断其是否符合用户查询的要求。
    • 输出:生成决策标记("True"或"False")以及支持该决策的理由。
2.2 训练方法

PaSa 在 AGILE(一种针对 LLM 智能体的强化学习框架)中进行优化。

  • 爬虫训练

    • 数据 :使用 AutoScholarQuery 数据集,该数据集包含从顶级 AI 会议论文中收集的 35,000 多个细粒度学术查询和相应的论文。

      • 构建方法:从论文的"相关工作"部分提取查询,并使用 GPT-4o 生成相应的搜索查询和答案。

      • 示例

        查询 查询日期 答案论文 来源
        哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习? 2023-08-10 [1] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism [2] Efficient Learning in Non-Stationary Linear Markov Decision Processes [3] Nonstationary Reinforcement Learning with Linear Function Approximation NeurIPS 2023
    • 方法 :采用 会话级 PPO(近端策略优化) 算法,解决学术搜索任务中奖励稀疏和轨迹过长的问题。

      • 奖励设计:奖励函数考虑了找到的相关论文数量和执行动作的成本,并使用选择器作为辅助奖励模型来缓解奖励稀疏问题。
      • 训练过程:包括模仿学习和强化学习两个阶段。在强化学习阶段,使用蒙特卡洛采样来估计回报,并引入 KL 惩罚项以防止过度优化。
  • 选择器训练

    • 采用 模仿学习 方法,使用包含 19,812 个 <用户查询,论文> 对的训练数据集进行训练,每个对都包含由 GPT-4o 生成的决策标记和理由。

3. 实验与结果

3.1 实验设置
  • 模型:PaSa-7b 基于 Qwen2.5-7b 构建。
  • 数据集
    • AutoScholarQuery:用于训练和测试。
    • RealScholarQuery :包含 50 个真实世界的学术查询,用于评估 PaSa 在现实场景中的表现。
      • 构建方法:邀请 AI 研究人员使用 PaSa 演示版,并从他们提供的查询中随机抽取样本进行人工筛选,最终收集到 50 个细粒度且现实的查询。
      • 相关论文收集:通过 PaSa、Google、Google Scholar、ChatGPT(启用搜索功能的 GPT-4o)以及 Google 与 GPT-4o 配对进行查询改写等多种方法检索相关论文,并由专业注释者进行审核。
3.2 评估指标
  • 召回率(Recall) :衡量检索到的相关论文占所有相关论文的比例。
    • @20、@50、@100:分别表示前 20、50、100 个检索结果的召回率。
  • 精确率(Precision):衡量检索到的相关论文占所有检索到的论文的比例。
3.3 主要结果
  • AutoScholarQuery 测试集

    • PaSa-7b 在所有指标上均优于所有基线方法。
    • 与最强的基线方法 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 9.64%,精确率相当。
    • 与最强的基于 Google 的基线方法 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 33.80%、38.83% 和 42.64%。
    • 使用多次爬虫集成可以进一步提高性能。
  • RealScholarQuery

    • PaSa-7b 在现实世界的学术搜索场景中表现出更大的优势。
    • 与 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 30.36%,精确率提升了 4.25%。
    • 与 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 37.78%、39.90% 和 39.83%。
3.4 消融研究
  • 移除 [Expand] 操作:导致召回率显著下降,在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 22.98% 和 32.21%。
  • 移除 RL 训练:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 6.24% 和 19.96%。
  • 移除选择器作为辅助奖励模型:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 3.76% 和 9.63%。

4. 结论

PaSa 是一种创新的学术论文搜索智能体,能够:

  • 自主使用在线搜索工具:通过生成多样化的搜索查询并调用搜索工具来检索相关论文。
  • 阅读整篇论文并导航引用网络:深入挖掘相关文献,确保搜索结果的全面性和准确性。
  • 提供精准的决策和解释:选择器不仅能判断论文是否符合查询要求,还能提供支持决策的理由,增强用户信任。

实验结果表明,PaSa 在多个指标上均优于现有的基线方法,显著提升了学术搜索的效率和准确性。

5. 视觉化展示

PaSa 爬虫的工作流程示例

  1. 用户查询:用户输入查询"如何利用 LLM 对搜索结果进行排名"。
  2. 生成搜索查询 :爬虫生成多个相关的搜索查询,例如:
    • "LLM 搜索结果排名方法"
    • "基于 LLM 的搜索结果排序"
    • "LLM 应用于搜索结果排序的研究"
  3. 检索论文:使用 Google 搜索这些查询,并从结果中检索相关论文。
  4. 扩展引用:对检索到的论文进行引用网络扩展,查找更多相关文献。
  5. 选择相关论文:选择器评估每篇论文是否满足用户查询的要求,并将其添加到最终结果中。

6. 未来展望

PaSa 的成功展示了 LLM 在学术搜索领域的巨大潜力。未来研究方向包括:

  • 多模态搜索:整合文本、图像、视频等多种信息源,实现更全面的搜索。
  • 个性化搜索:根据用户的偏好和研究领域,提供更精准的搜索结果。
  • 持续学习:随着新论文的不断发表,PaSa 需要具备持续学习的能力,以保持其搜索结果的时效性和准确性。
相关推荐
热爱运维的小七2 分钟前
从数据透视到AI分析,用四层架构解决运维难题
运维·人工智能·架构
卧式纯绿13 分钟前
每日文献(八)——Part one
人工智能·yolo·目标检测·计算机视觉·目标跟踪·cnn
巷95520 分钟前
OpenCV图像形态学:原理、操作与应用详解
人工智能·opencv·计算机视觉
深蓝易网1 小时前
为什么制造企业需要用MES管理系统升级改造车间
大数据·运维·人工智能·制造·devops
xiangzhihong81 小时前
Amodal3R ,南洋理工推出的 3D 生成模型
人工智能·深度学习·计算机视觉
狂奔solar1 小时前
diffusion-vas 提升遮挡区域的分割精度
人工智能·深度学习
资源大全免费分享1 小时前
MacOS 的 AI Agent 新星,本地沙盒驱动,解锁 macOS 操作新体验!
人工智能·macos·策略模式
跳跳糖炒酸奶2 小时前
第四章、Isaacsim在GUI中构建机器人(2):组装一个简单的机器人
人工智能·python·算法·ubuntu·机器人
AI.NET 极客圈2 小时前
AI与.NET技术实操系列(四):使用 Semantic Kernel 和 DeepSeek 构建AI应用
人工智能·.net