PaSa:基于大语言模型的综合学术论文搜索智能体

论文地址:https://arxiv.org/pdf/2501.10120

Demo: https://pasa-agent.ai

github地址:https://github.com/bytedance/pasa

1. 背景与挑战

学术论文搜索是科研的核心环节,但面临诸多挑战:

  • 长尾专业知识需求:需要涵盖广泛的领域知识和特定的研究方向。
  • 全面性要求:需要全面覆盖相关研究,避免遗漏重要文献。
  • 细粒度查询处理:需要精准理解并回答复杂的查询,例如:"哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习?"

现有的学术搜索引擎(如Google Scholar)虽然对一般查询有效,但在处理复杂查询时往往力不从心,导致研究人员需要花费大量时间进行文献综述。

2. PaSa:创新的学术论文搜索智能体

为了应对上述挑战,本文提出了 PaSa,一种基于大语言模型(LLM)的智能体,旨在模拟人类行为,实现全面且精准的学术论文搜索。

2.1 系统架构

PaSa 由两个 LLM 智能体组成:

  • 爬虫(Crawler)
    • 功能:处理用户查询,调用搜索工具,读取论文并选择相关参考文献。
    • 工作流程
      1. 接收用户查询,生成多个搜索查询并检索相关论文,将结果添加到论文队列中。
      2. 迭代处理论文队列中的每篇论文,导航引用网络以发现更多相关论文。
      3. 可以自主调用搜索工具、扩展引用或停止处理当前论文。
  • 选择器(Selector)
    • 功能:仔细阅读论文队列中的每篇论文,判断其是否符合用户查询的要求。
    • 输出:生成决策标记("True"或"False")以及支持该决策的理由。
2.2 训练方法

PaSa 在 AGILE(一种针对 LLM 智能体的强化学习框架)中进行优化。

  • 爬虫训练

    • 数据 :使用 AutoScholarQuery 数据集,该数据集包含从顶级 AI 会议论文中收集的 35,000 多个细粒度学术查询和相应的论文。

      • 构建方法:从论文的"相关工作"部分提取查询,并使用 GPT-4o 生成相应的搜索查询和答案。

      • 示例

        查询 查询日期 答案论文 来源
        哪些研究关注了使用基于价值的方法,特别是基于置信上界(UCB)的算法进行非平稳强化学习? 2023-08-10 [1] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism [2] Efficient Learning in Non-Stationary Linear Markov Decision Processes [3] Nonstationary Reinforcement Learning with Linear Function Approximation NeurIPS 2023
    • 方法 :采用 会话级 PPO(近端策略优化) 算法,解决学术搜索任务中奖励稀疏和轨迹过长的问题。

      • 奖励设计:奖励函数考虑了找到的相关论文数量和执行动作的成本,并使用选择器作为辅助奖励模型来缓解奖励稀疏问题。
      • 训练过程:包括模仿学习和强化学习两个阶段。在强化学习阶段,使用蒙特卡洛采样来估计回报,并引入 KL 惩罚项以防止过度优化。
  • 选择器训练

    • 采用 模仿学习 方法,使用包含 19,812 个 <用户查询,论文> 对的训练数据集进行训练,每个对都包含由 GPT-4o 生成的决策标记和理由。

3. 实验与结果

3.1 实验设置
  • 模型:PaSa-7b 基于 Qwen2.5-7b 构建。
  • 数据集
    • AutoScholarQuery:用于训练和测试。
    • RealScholarQuery :包含 50 个真实世界的学术查询,用于评估 PaSa 在现实场景中的表现。
      • 构建方法:邀请 AI 研究人员使用 PaSa 演示版,并从他们提供的查询中随机抽取样本进行人工筛选,最终收集到 50 个细粒度且现实的查询。
      • 相关论文收集:通过 PaSa、Google、Google Scholar、ChatGPT(启用搜索功能的 GPT-4o)以及 Google 与 GPT-4o 配对进行查询改写等多种方法检索相关论文,并由专业注释者进行审核。
3.2 评估指标
  • 召回率(Recall) :衡量检索到的相关论文占所有相关论文的比例。
    • @20、@50、@100:分别表示前 20、50、100 个检索结果的召回率。
  • 精确率(Precision):衡量检索到的相关论文占所有检索到的论文的比例。
3.3 主要结果
  • AutoScholarQuery 测试集

    • PaSa-7b 在所有指标上均优于所有基线方法。
    • 与最强的基线方法 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 9.64%,精确率相当。
    • 与最强的基于 Google 的基线方法 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 33.80%、38.83% 和 42.64%。
    • 使用多次爬虫集成可以进一步提高性能。
  • RealScholarQuery

    • PaSa-7b 在现实世界的学术搜索场景中表现出更大的优势。
    • 与 PaSa-GPT-4o 相比,PaSa-7b 在召回率上提升了 30.36%,精确率提升了 4.25%。
    • 与 Google with GPT-4o 相比,PaSa-7b 在 Recall@20、Recall@50 和 Recall@100 上分别提升了 37.78%、39.90% 和 39.83%。
3.4 消融研究
  • 移除 [Expand] 操作:导致召回率显著下降,在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 22.98% 和 32.21%。
  • 移除 RL 训练:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 6.24% 和 19.96%。
  • 移除选择器作为辅助奖励模型:召回率在 AutoScholarQuery 和 RealScholarQuery 上分别下降了 3.76% 和 9.63%。

4. 结论

PaSa 是一种创新的学术论文搜索智能体,能够:

  • 自主使用在线搜索工具:通过生成多样化的搜索查询并调用搜索工具来检索相关论文。
  • 阅读整篇论文并导航引用网络:深入挖掘相关文献,确保搜索结果的全面性和准确性。
  • 提供精准的决策和解释:选择器不仅能判断论文是否符合查询要求,还能提供支持决策的理由,增强用户信任。

实验结果表明,PaSa 在多个指标上均优于现有的基线方法,显著提升了学术搜索的效率和准确性。

5. 视觉化展示

PaSa 爬虫的工作流程示例

  1. 用户查询:用户输入查询"如何利用 LLM 对搜索结果进行排名"。
  2. 生成搜索查询 :爬虫生成多个相关的搜索查询,例如:
    • "LLM 搜索结果排名方法"
    • "基于 LLM 的搜索结果排序"
    • "LLM 应用于搜索结果排序的研究"
  3. 检索论文:使用 Google 搜索这些查询,并从结果中检索相关论文。
  4. 扩展引用:对检索到的论文进行引用网络扩展,查找更多相关文献。
  5. 选择相关论文:选择器评估每篇论文是否满足用户查询的要求,并将其添加到最终结果中。

6. 未来展望

PaSa 的成功展示了 LLM 在学术搜索领域的巨大潜力。未来研究方向包括:

  • 多模态搜索:整合文本、图像、视频等多种信息源,实现更全面的搜索。
  • 个性化搜索:根据用户的偏好和研究领域,提供更精准的搜索结果。
  • 持续学习:随着新论文的不断发表,PaSa 需要具备持续学习的能力,以保持其搜索结果的时效性和准确性。
相关推荐
速融云1 小时前
汽车制造行业案例 | 发动机在制造品管理全解析(附解决方案模板)
大数据·人工智能·自动化·汽车·制造
AI明说2 小时前
什么是稀疏 MoE?Doubao-1.5-pro 如何以少胜多?
人工智能·大模型·moe·豆包
XianxinMao2 小时前
重构开源LLM分类:从二分到三分的转变
人工智能·语言模型·开源
Elastic 中国社区官方博客2 小时前
使用 Elasticsearch 导航检索增强生成图表
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
云天徽上3 小时前
【数据可视化】全国星巴克门店可视化
人工智能·机器学习·信息可视化·数据挖掘·数据分析
大嘴吧Lucy3 小时前
大模型 | AI驱动的数据分析:利用自然语言实现数据查询到可视化呈现
人工智能·信息可视化·数据分析
艾思科蓝 AiScholar3 小时前
【连续多届EI稳定收录&出版级别高&高录用快检索】第五届机械设计与仿真国际学术会议(MDS 2025)
人工智能·数学建模·自然语言处理·系统架构·机器人·软件工程·拓扑学
watersink3 小时前
面试题库笔记
大数据·人工智能·机器学习
计算机软件程序设计4 小时前
NLP自然语言处理中Word2Vec和GloVe概述
自然语言处理·nlp·word2vec