AGI 论文复现日记：攻克 PDF 解析的“第一公里”

前言：PDF，AI 研发中挥之不去的噩梦

在上一篇博文中，我讨论了 AGI 复现论文的三大"拦路虎"，其中首当其冲的就是公式到代码的"翻译断层" 。然而，要解决这个断层，我们必须先面对一个更基础、也更枯燥的问题：如何从布局复杂的 PDF 中提取出干净、结构化的信息？

如果 PDF 解析质量只有 50 分，那么后续的架构师 Agent 拿到的就是"残缺的地图"，复现成功率几乎为零。为此，我为我的"Scholar-to-Code"项目开启了一场代号为 "Upgrade to 80+" 的专项实验。

第一阶段：惨淡的基线（Baseline）

我首先选择了业界常用的 PyMuPDF (fitz) 作为基线解析器，对一篇复杂的学术论文《A Kalman Filter Approach To Clock Synchronization...》进行了全自动化评测。

基线测试结果（2024-01-10）：

综合得分：54.0/100 (D级)
痛点分析：
1. 公式全灭：公式识别率为 0。对于理工科论文，没有公式就意味着失去了灵魂。
2. 元数据缺失：虽然提取了 9000 多字符的文本，但 Agent 甚至不知道作者是谁，也没能提取出摘要。
3. 结构破碎：实际有 10 多个章节，基线方法只识别到了 2 个。

结论：传统的 PDF 文本提取工具在处理学术排版时完全"抓瞎"，必须进行手术级的优化。

第二阶段：实验 1 ------ 夺回元数据的控制权

针对基线测试中元数据（Metadata）惨不忍睹的表现（仅 30/100），我进行了第一次优化实验。

优化策略：

布局启发式规则：不再暴力提取，而是通过分析第一页的布局，锁定标题下方、摘要上方的"作者区"。
清洗正则逻辑：修复了标题提取中常见的末尾特殊字符（如星号、脚注标记），并精准定位 Abstract 部分的起始与终点。

阶段性成果（2026-01-10）：

综合得分：68.0/100 (C级) ------ 提升了整整 14 分！
元数据得分：30 🚀 100 (满分！)
战果快报：成功从 0 作者识别提升到准确识别 4 位作者；成功提取了 887 字符的完整摘要。

感悟：元数据的补全让我的 Agent 终于有了"上下文意识"，它现在知道这篇论文的研究背景和权威作者是谁了。

第三阶段：后续的"七剑下天山"

虽然 68 分已经跨越了及格线，但距离复现所需的 80 分（B级）仍有差距。为了彻底解决公式和双栏布局问题，我设计了 7 种优化路径：

元数据提取优化 (✅ 已完成，得分 +14)
公式图像提取与识别：针对 PyMuPDF 无法提取公式的弱点，计划引入 LLM 辅助识别。
修复 Marker 依赖 ：尝试使用更先进的深度学习解析框架 Marker，解决环境冲突。
集成 MathPix API：考虑引入业界最强的公式识别 API，以空间（成本）换精度。
双栏布局优化：通过坐标排序算法，修正阅读顺序。
LLM 辅助结构分析：利用 LLM 的语义能力，弥补规则算法在识别章节层次上的不足。
横向测评 ：对比 pdfplumber、Nougat 等工具，寻找最优选。

结语：从 D 到 C，这只是开始

通过这次实验，我深刻意识到：AGI 的"智能"很大程度上取决于数据输入的"信噪比"。

目前，我虽然解决了"谁写的论文"和"论文讲了什么"的问题，但论文中那几十个复杂的 Kalman Filter 状态转移公式依然是解析结果中的一片空白。接下来的实验 2 和实验 4，我将正面硬刚这些公式，尝试通过图像识别和 MathPix API 将这些数学灵魂重新注入到 Markdown 中。

如果你也在做类似的 Agent 开发，欢迎关注我的复现日记。下一篇，我们将聊聊：当 Agent 看到公式图像时，它在想什么？

📊 当前实验进度表（2026-01-10）

阶段	状态	综合得分	核心提升
基线测试	已完成	54 (D)	无
实验 1 (元数据)	已完成	68 ©	作者/摘要识别满分
实验 2 (公式识别)	待测试	-	预期公式质量大幅提升
实验 5 (布局优化)	进行中	-	解决双栏阅读顺序

为了让你的技术博客更具专业深度，我将针对你要求的两个部分------**"评分标准体系"与"PyMuPDF 处理学术作者的工程难点"**进行了深度拆解，并整合进博文框架中。

附录1：建立准绳：Agent 视角的 PDF 解析评分体系

在工程开发中，如果没有量化的指标，优化就是"盲人摸象"。为了评估解析质量，我设计了一套针对 LLM 研发场景 的评分标准。这套标准不看排版美不美观，只看信息对 Agent 的"可用性"。

维度 (权重)	评估核心 (Metric)	对 Agent 的商业价值
文本完整性 (40%)	文本长度、摘要/引言/结论的覆盖度。	上下文丰富度：缺失引言会导致 Agent 误解研究动机。
元数据完整性 (20%)	标题、作者、日期、DOI 的准确提取。	溯源与检索：Agent 需要通过作者名检索其关联代码库或以往研究。
公式质量 (20%)	数学符号的 LaTeX 转化率与准确率。	逻辑重构：这是复现的核心，公式错误则逻辑必错。
结构质量 (20%)	章节层级、算法块、实验数据表识别。	任务规划：Agent 需识别"Algorithm 1"来决定哪部分是核心代码。

当前进度 ：通过实验 1，我们将总分从 54 (D级) 提升到了 68 (C级)，这主要归功于元数据完整性从 30 飙升至 100。

附录2: 深度工程解析：为什么传统的 PyMuPDF 处理不了学术作者？

在基线测试中，我发现即使是最基础的"作者"信息，传统的 PyMuPDF (fitz) 也提取得一塌糊涂。作为一个低层级的解析工具，PyMuPDF 本质上是**"字符坐标提取器"**，而学术论文的排版规则正是它的天敌。

A. "视觉逻辑"与"字符流逻辑"的断层

PyMuPDF 按照字符在 PDF 字节流中的顺序读取。但在学术论文（尤其是双栏布局）中，作者信息通常位于标题下方、摘要上方。

工程陷阱：在 PDF 源码中，作者名后面可能紧跟着的是第一栏的正文，而不是摘要。PyMuPDF 无法理解"标题 -> 作者 -> 机构 -> 摘要"的垂直视觉降维，它只会机械地拼接字符串。

B. 致命的"上标"干扰 (The Superscript Trap)

学术论文习惯在作者名后加星号 *、数字 1 或字母 a 来表示通讯作者或所属机构。

PyMuPDF 的误判 ：解析器会将 Chongning Na* 读成 Chongning Na* 或直接将上标断开。由于这些字符与姓名在 Y 轴上存在微小偏移，解析器往往会认为这是独立的一行，或者将其混入下方的机构信息中。

C. "非标签化"的特征缺失

不像网页（HTML）有 <footer> 或 <meta name="author"> 标签，学术 PDF 的作者信息是**"无标签"的。它们通常只靠 字号大小和位置居中**来标识。

基线局限：PyMuPDF 不具备语义感知。它不知道"Chongning Na"是一个人名，除非它能识别出加粗、字号变大以及它位于 Abstract 关键词之前的特征。

D. 复杂的作者-机构映射

很多论文将 5 个作者列在一行，下方用小号字列出 3 个不同的机构。

解析灾难 ：PyMuPDF 提取出的文本往往是：作者A 作者B 机构1 机构2 作者C。这种"交织"的文本对于 Agent 来说是不可理解的乱码。

附录3: 实验 1 的破局：启发式布局分析

为了解决上述问题，我在实验 1 中放弃了"全文本匹配"，引入了基于第一页局部扫描的启发式算法：

锚点定位 ：首先寻找 Abstract 或 Introduction 作为下边界锚点。
视觉切片：在标题下方与锚点之间的区域进行"局部采样"。
正则清洗优化 ：
- 排除法 ：自动剔除包含 @（邮箱）、University（机构）、Department 等关键词的行。
- 上标擦除 ：专门编写了处理末尾特殊字符的正则，将 Na* 还原为 Na。
人名模式识别：利用常见的人名大写规律进行二次验证。

结果：在测试论文《A Kalman Filter Approach...》中，我们将作者识别数量从 0 提升到了满分 4 位，且完美去除了标题末尾的干扰字符。