论文阅读:ACL 2025 PaSa: An LLM Agent for Comprehensive Academic Paper Search

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://aclanthology.org/2025.acl-long.572/

该论文题为"PaSa: An LLM Agent for Comprehensive Academic Paper Search",由字节跳动Seed团队的何逸辰、黄冠华、冯沛源、林源等人与北京大学鄂维南院士合作完成,发表于ACL 2025主会长文。

该论文聚焦一个科研人员的日常痛点:面对复杂、细粒度的学术检索需求,Google Scholar等传统搜索引擎往往力不从心,研究者需要花费大量时间反复搜索、阅读论文、追踪引用才能完成一次完整的文献调研。为此,该论文提出了PaSa(Paper Search Agent),一个能像人类研究者一样自主搜索论文的LLM智能体。

PaSa的核心设计非常直观。想象你要调研一个冷门课题,你会先用关键词搜几篇论文,然后打开其中一篇,翻到相关工作部分,发现它引用了几篇更相关的文章,于是你又去读那些引用------PaSa做的就是这件事。它由两个智能体组成:Crawler(爬虫)负责不断搜索和沿着引用网络"爬取"论文,把找到的论文放入一个待审队列;Selector(筛选器)则逐篇阅读队列中的论文,判断其是否真正满足用户的查询需求。Crawler有三个核心动作:发起搜索、展开某篇论文的引用、以及停止当前论文转向下一篇。

该论文在训练方法上也有创新。团队构建了AutoScholarQuery数据集,从ICLR、ICML、NeurIPS、ACL、CVPR等顶会论文的相关工作章节中,利用GPT-4o自动生成了3.5万条细粒度学术查询及对应论文。在此基础上,团队设计了一种会话级PPO强化学习算法来训练Crawler,有效解决了论文搜索任务中奖励稀疏和轨迹过长两大难题。

该论文还构建了RealScholarQuery基准,包含50条真实的学术查询,由计算机系教授逐篇标注。实验结果令人印象深刻:仅7B参数的PaSa在Recall@20上超越Google+GPT-4o基线37.78%,在Recall@50上超越39.90%,同时在召回率和精确率上均大幅超过用GPT-4o直接实现的PaSa-GPT-4o版本。消融实验表明,引用网络探索、强化学习训练和Selector辅助奖励三个组件均不可或缺,其中引用网络探索对召回率的贡献最为显著。

该论文展示了将LLM智能体与强化学习结合用于复杂学术搜索的巨大潜力,为科研人员的文献调研工作提供了一个强有力的自动化工具。

QA

作者是怎么做的对比实验,用的什么数据集呢?

这篇论文介绍的是 PaSa(Paper Search Agent),我来梳理一下他们的对比实验设计。

数据集

作者构建了两个数据集:

AutoScholarQuery(合成数据集):从 ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024、CVPR 2024 的论文相关工作章节中,用 GPT-4o 自动生成学术查询,答案就是该章节引用的论文。最终包含约 33,551 / 1,000 / 1,000 条训练/验证/测试数据。

RealScholarQuery(真实数据集):在 PaSa 上线 demo 后,邀请真实 AI 研究者提交查询,人工筛选出 50 条细粒度问题,再由顶校计算机系教授手工标注相关论文,平均每条查询关联约 15.82 篇论文,标注成本约每条 $304。

对比基线

作者选了六类对比方法,大体分三个层次:

  • 传统搜索引擎:Google、Google Scholar
  • LLM 增强搜索:Google with GPT-4o(先改写查询再搜索)、ChatGPT(搜索增强版 GPT-4o)、GPT-o1(无外部工具)
  • Agent 方法:PaSa-GPT-4o(用 GPT-4o 实现同款 PaSa 框架,用于剥离 RL 训练的贡献)

评估指标

  • 对有排序的搜索引擎类方法,用 Recall@20 / @50 / @100
  • 对无排序的 Agent 类方法,用整体 Precision 和 Recall
  • 额外比较 Crawler Recall(衡量爬取阶段的覆盖率)

主要结论

PaSa-7B 在两个数据集上全面超越所有基线。在 RealScholarQuery 上,相比最强的 Google+GPT-4o 基线,Recall@20 提升 37.78%;相比同架构的 PaSa-GPT-4o,Recall 提升 30.36%,说明 RL 训练本身贡献显著。此外消融实验还单独验证了 [Expand](引用网络扩展)、RL 训练、Selector 作为奖励模型三个组件各自的作用。

AutoScholarQuery、RealScholarQuery这两个数据集,你举几个数据集的例子,这样我能更快理解数据集是什么样子。

论文里直接给了具体例子,我来列举一下:

AutoScholarQuery 示例(论文 Table 1)

例子1:

  • Query: Could you provide me some studies that proposed hierarchical neural models to capture spatiotemporal features in sign videos?
  • Query Date: 2023-05-02
  • Answer Papers :
    • TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation
    • Sign Language Translation with Hierarchical Spatio-Temporal Graph Neural Network
  • 来源论文: SLTUnet: A Simple Unified Model for Sign Language Translation, ICLR 2023

例子2:

  • Query: Which studies have focused on nonstationary RL using value-based methods, specifically UCB-based algorithms?
  • Query Date: 2023-08-10
  • Answer Papers :
    • Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism
    • Efficient Learning in Non-Stationary Linear Markov Decision Processes
    • Nonstationary Reinforcement Learning with Linear Function Approximation
  • 来源论文: Provably Efficient Algorithm for Nonstationary Low-Rank MDPs, NeurIPS 2023

RealScholarQuery 示例(论文 Table 9)

  • Query: Give me papers about how to rank search results by the use of LLM
  • Query Date: 2024-10-01
  • Answer Papers : 共39篇,例如:
    • Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
    • Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
    • RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
    • ......(还有36篇)

两个数据集的核心区别一目了然:

AutoScholarQuery RealScholarQuery
查询来源 GPT-4o 从论文相关工作自动生成 真实研究者提交
答案规模 平均每条 2~3 篇 平均每条 ~16 篇
标注方式 自动构建 教授人工标注
数据量 35,551 条 50 条

AutoScholarQuery 的答案少是因为它只收录了该论文相关工作里引用的那几篇,而 RealScholarQuery 是尽可能穷举所有相关论文,所以答案更全、更多。

例子,翻译为中文

AutoScholarQuery 示例

例子1:

  • 查询: 能给我一些提出了层次化神经网络模型、用于捕捉手语视频时空特征的研究吗?
  • 查询日期: 2023-05-02
  • 答案论文 :
    • TSPNet:通过时序语义金字塔进行层次化特征学习用于手语翻译
    • 基于层次化时空图神经网络的手语翻译
  • 来源论文: SLTUnet:一个用于手语翻译的简单统一模型,ICLR 2023

例子2:

  • 查询: 有哪些研究关注了非平稳强化学习中基于值函数的方法,特别是基于UCB算法的方法?
  • 查询日期: 2023-08-10
  • 答案论文 :
    • 非平稳马尔可夫决策过程的强化学习:(更多)乐观主义的福音
    • 非平稳线性马尔可夫决策过程中的高效学习
    • 带线性函数近似的非平稳强化学习
  • 来源论文: 非平稳低秩MDP的可证明高效算法,NeurIPS 2023

RealScholarQuery 示例

  • 查询: 给我一些关于如何用大语言模型对搜索结果进行排序的论文
  • 查询日期: 2024-10-01
  • 答案论文 (共39篇,举几个代表性的):
    • 大语言模型是基于成对排序提示的高效文本排序器
    • ChatGPT擅长搜索吗?研究大语言模型作为重排序智能体
    • RankVicuna:基于开源大语言模型的零样本列表式文档重排序

理解这两个数据集之后,整篇论文的逻辑就很清晰了:AutoScholarQuery 用来训练和初步测试 (数据量大但答案不完整),RealScholarQuery 用来验证真实场景效果(数据量小但答案更完整可信)。PaSa 虽然只在合成数据上训练,却在真实数据上也取得了很好的效果,这也是论文的一个重要亮点。

如何判定检索结果是正确的,就是评估标准是啥

好问题!这涉及到论文里两个层面的评估。


第一层:Crawler 的评估(召回阶段)

Crawler 负责把尽可能多的相关论文放进"论文队列",评估指标是:

Crawler Recall = 被 Crawler 收集到的目标论文数 / 全部目标论文数

简单说就是:目标论文有没有被"捞进来",还没判断对不对,只看有没有找到。


第二层:最终结果的评估(精排阶段)

Selector 从论文队列里筛选出最终答案后,用以下指标评估:

针对有排序的搜索引擎类方法(Google等):

  • Recall@20:返回前20篇里,答案论文占全部答案论文的比例
  • Recall@50:返回前50篇里,答案论文占全部答案论文的比例
  • Recall@100:返回前100篇里,答案论文占全部答案论文的比例

针对无排序的Agent类方法(PaSa等):

  • Recall = 检索到的正确论文数 / 全部正确论文数(找全了吗?)
  • Precision = 检索到的正确论文数 / 检索到的全部论文数(找准了吗?)

关键问题:怎么判定一篇论文是"正确答案"?

两个数据集的判定方式不同:

AutoScholarQuery RealScholarQuery
判定方式 看论文是否在预先构建的答案集合里 由教授人工审核判定
答案来源 从源论文的相关工作引用中自动提取 多种方法检索后人工筛选
问题 答案集合可能不完整(引用只是一部分相关论文) 更接近真实、更完整

一个特别值得注意的细节

AutoScholarQuery 的答案集合天然是不完整的,因为一篇论文的相关工作只会引用部分相关论文,而不是所有相关论文。所以作者在训练时专门用 Selector 作为辅助奖励模型来弥补这个问题------即使一篇论文不在答案集合里,只要 Selector 判断它与查询相关,也给 Crawler 正向奖励,避免了稀疏奖励的问题。

相关推荐
智算菩萨18 小时前
【论文精读】Automated machine learning for positive-unlabelled learning
论文阅读·人工智能·机器学习·论文笔记·贝叶斯优化·自动机器学习·无标签学习
数说星榆18121 小时前
电脑流程图模板精选 中文适配一键修改超方便
论文阅读·毕业设计·流程图·论文笔记·毕设
movigo7_dou1 天前
SIFT的一些内容
论文阅读·图像处理·学习·计算机视觉
QiZhang | UESTC2 天前
《Attention is all you need》论文阅读与代码实战
论文阅读
STLearner2 天前
AI论文速读 | 元认知监控赋能深度搜索:认知神经科学启发的分层优化框架
大数据·论文阅读·人工智能·python·深度学习·学习·机器学习
imbackneverdie4 天前
6个常用国自然课题项目查询网站,码住以备不时之需
论文阅读·人工智能·aigc·科研·国自然·ai工具·国家自然科学基金
蓝田生玉1234 天前
qwen2.5论文阅读笔记
论文阅读·笔记
SUNNY_SHUN4 天前
ICLR 2026 | Judo: 7B小模型工业缺陷问答超越GPT-4o,用对比学习+强化学习注入领域知识
论文阅读·人工智能·学习·视觉检测·github
sin°θ_陈4 天前
前馈式3D Gaussian Splatting 研究地图(总览篇):解构七大路线,梳理方法谱系,看懂关键分歧与未来趋势
论文阅读·深度学习·算法·3d·aigc·空间计算·3dgs