论文阅读：ACL 2025 PaSa: An LLM Agent for Comprehensive Academic Paper Search

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://aclanthology.org/2025.acl-long.572/

该论文题为"PaSa: An LLM Agent for Comprehensive Academic Paper Search"，由字节跳动Seed团队的何逸辰、黄冠华、冯沛源、林源等人与北京大学鄂维南院士合作完成，发表于ACL 2025主会长文。

该论文聚焦一个科研人员的日常痛点：面对复杂、细粒度的学术检索需求，Google Scholar等传统搜索引擎往往力不从心，研究者需要花费大量时间反复搜索、阅读论文、追踪引用才能完成一次完整的文献调研。为此，该论文提出了PaSa（Paper Search Agent），一个能像人类研究者一样自主搜索论文的LLM智能体。

PaSa的核心设计非常直观。想象你要调研一个冷门课题，你会先用关键词搜几篇论文，然后打开其中一篇，翻到相关工作部分，发现它引用了几篇更相关的文章，于是你又去读那些引用------PaSa做的就是这件事。它由两个智能体组成：Crawler（爬虫）负责不断搜索和沿着引用网络"爬取"论文，把找到的论文放入一个待审队列；Selector（筛选器）则逐篇阅读队列中的论文，判断其是否真正满足用户的查询需求。Crawler有三个核心动作：发起搜索、展开某篇论文的引用、以及停止当前论文转向下一篇。

该论文在训练方法上也有创新。团队构建了AutoScholarQuery数据集，从ICLR、ICML、NeurIPS、ACL、CVPR等顶会论文的相关工作章节中，利用GPT-4o自动生成了3.5万条细粒度学术查询及对应论文。在此基础上，团队设计了一种会话级PPO强化学习算法来训练Crawler，有效解决了论文搜索任务中奖励稀疏和轨迹过长两大难题。

该论文还构建了RealScholarQuery基准，包含50条真实的学术查询，由计算机系教授逐篇标注。实验结果令人印象深刻：仅7B参数的PaSa在Recall@20上超越Google+GPT-4o基线37.78%，在Recall@50上超越39.90%，同时在召回率和精确率上均大幅超过用GPT-4o直接实现的PaSa-GPT-4o版本。消融实验表明，引用网络探索、强化学习训练和Selector辅助奖励三个组件均不可或缺，其中引用网络探索对召回率的贡献最为显著。

该论文展示了将LLM智能体与强化学习结合用于复杂学术搜索的巨大潜力，为科研人员的文献调研工作提供了一个强有力的自动化工具。

QA

作者是怎么做的对比实验，用的什么数据集呢？

这篇论文介绍的是 PaSa（Paper Search Agent），我来梳理一下他们的对比实验设计。

数据集

作者构建了两个数据集：

AutoScholarQuery（合成数据集）：从 ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024、CVPR 2024 的论文相关工作章节中，用 GPT-4o 自动生成学术查询，答案就是该章节引用的论文。最终包含约 33,551 / 1,000 / 1,000 条训练/验证/测试数据。

RealScholarQuery（真实数据集）：在 PaSa 上线 demo 后，邀请真实 AI 研究者提交查询，人工筛选出 50 条细粒度问题，再由顶校计算机系教授手工标注相关论文，平均每条查询关联约 15.82 篇论文，标注成本约每条 $304。

对比基线

作者选了六类对比方法，大体分三个层次：

传统搜索引擎：Google、Google Scholar
LLM 增强搜索：Google with GPT-4o（先改写查询再搜索）、ChatGPT（搜索增强版 GPT-4o）、GPT-o1（无外部工具）
Agent 方法：PaSa-GPT-4o（用 GPT-4o 实现同款 PaSa 框架，用于剥离 RL 训练的贡献）

评估指标

对有排序的搜索引擎类方法，用 Recall@20 / @50 / @100
对无排序的 Agent 类方法，用整体 Precision 和 Recall
额外比较 Crawler Recall（衡量爬取阶段的覆盖率）

主要结论

PaSa-7B 在两个数据集上全面超越所有基线。在 RealScholarQuery 上，相比最强的 Google+GPT-4o 基线，Recall@20 提升 37.78%；相比同架构的 PaSa-GPT-4o，Recall 提升 30.36%，说明 RL 训练本身贡献显著。此外消融实验还单独验证了 $Expand$ （引用网络扩展）、RL 训练、Selector 作为奖励模型三个组件各自的作用。

AutoScholarQuery、RealScholarQuery这两个数据集,你举几个数据集的例子,这样我能更快理解数据集是什么样子。

论文里直接给了具体例子，我来列举一下：

AutoScholarQuery 示例（论文 Table 1）

例子1：

Query: Could you provide me some studies that proposed hierarchical neural models to capture spatiotemporal features in sign videos?
Query Date: 2023-05-02
Answer Papers :
- TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation
- Sign Language Translation with Hierarchical Spatio-Temporal Graph Neural Network
来源论文: SLTUnet: A Simple Unified Model for Sign Language Translation, ICLR 2023

例子2：

Query: Which studies have focused on nonstationary RL using value-based methods, specifically UCB-based algorithms?
Query Date: 2023-08-10
Answer Papers :
- Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism
- Efficient Learning in Non-Stationary Linear Markov Decision Processes
- Nonstationary Reinforcement Learning with Linear Function Approximation
来源论文: Provably Efficient Algorithm for Nonstationary Low-Rank MDPs, NeurIPS 2023

RealScholarQuery 示例（论文 Table 9）

Query: Give me papers about how to rank search results by the use of LLM
Query Date: 2024-10-01
Answer Papers : 共39篇，例如：
- Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
- RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
- ......（还有36篇）

两个数据集的核心区别一目了然：

	AutoScholarQuery	RealScholarQuery
查询来源	GPT-4o 从论文相关工作自动生成	真实研究者提交
答案规模	平均每条 2~3 篇	平均每条 ~16 篇
标注方式	自动构建	教授人工标注
数据量	35,551 条	50 条

AutoScholarQuery 的答案少是因为它只收录了该论文相关工作里引用的那几篇，而 RealScholarQuery 是尽可能穷举所有相关论文，所以答案更全、更多。

例子，翻译为中文

AutoScholarQuery 示例

例子1：

查询: 能给我一些提出了层次化神经网络模型、用于捕捉手语视频时空特征的研究吗？
查询日期: 2023-05-02
答案论文 :
- TSPNet：通过时序语义金字塔进行层次化特征学习用于手语翻译
- 基于层次化时空图神经网络的手语翻译
来源论文: SLTUnet：一个用于手语翻译的简单统一模型，ICLR 2023

例子2：

查询: 有哪些研究关注了非平稳强化学习中基于值函数的方法，特别是基于UCB算法的方法？
查询日期: 2023-08-10
答案论文 :
- 非平稳马尔可夫决策过程的强化学习：（更多）乐观主义的福音
- 非平稳线性马尔可夫决策过程中的高效学习
- 带线性函数近似的非平稳强化学习
来源论文: 非平稳低秩MDP的可证明高效算法，NeurIPS 2023

RealScholarQuery 示例

查询: 给我一些关于如何用大语言模型对搜索结果进行排序的论文
查询日期: 2024-10-01
答案论文 （共39篇，举几个代表性的）:
- 大语言模型是基于成对排序提示的高效文本排序器
- ChatGPT擅长搜索吗？研究大语言模型作为重排序智能体
- RankVicuna：基于开源大语言模型的零样本列表式文档重排序

理解这两个数据集之后，整篇论文的逻辑就很清晰了：AutoScholarQuery 用来训练和初步测试 （数据量大但答案不完整），RealScholarQuery 用来验证真实场景效果（数据量小但答案更完整可信）。PaSa 虽然只在合成数据上训练，却在真实数据上也取得了很好的效果，这也是论文的一个重要亮点。

如何判定检索结果是正确的，就是评估标准是啥

好问题！这涉及到论文里两个层面的评估。

第一层：Crawler 的评估（召回阶段）

Crawler 负责把尽可能多的相关论文放进"论文队列"，评估指标是：

Crawler Recall = 被 Crawler 收集到的目标论文数 / 全部目标论文数

简单说就是：目标论文有没有被"捞进来"，还没判断对不对，只看有没有找到。

第二层：最终结果的评估（精排阶段）

Selector 从论文队列里筛选出最终答案后，用以下指标评估：

针对有排序的搜索引擎类方法（Google等）：

Recall@20：返回前20篇里，答案论文占全部答案论文的比例
Recall@50：返回前50篇里，答案论文占全部答案论文的比例
Recall@100：返回前100篇里，答案论文占全部答案论文的比例

针对无排序的Agent类方法（PaSa等）：

Recall = 检索到的正确论文数 / 全部正确论文数（找全了吗？）
Precision = 检索到的正确论文数 / 检索到的全部论文数（找准了吗？）

关键问题：怎么判定一篇论文是"正确答案"？

两个数据集的判定方式不同：

	AutoScholarQuery	RealScholarQuery
判定方式	看论文是否在预先构建的答案集合里	由教授人工审核判定
答案来源	从源论文的相关工作引用中自动提取	多种方法检索后人工筛选
问题	答案集合可能不完整（引用只是一部分相关论文）	更接近真实、更完整

一个特别值得注意的细节

AutoScholarQuery 的答案集合天然是不完整的，因为一篇论文的相关工作只会引用部分相关论文，而不是所有相关论文。所以作者在训练时专门用 Selector 作为辅助奖励模型来弥补这个问题------即使一篇论文不在答案集合里，只要 Selector 判断它与查询相关，也给 Crawler 正向奖励，避免了稀疏奖励的问题。