AGI 论文复现日记：从 54 到 92 分，论文复现 AI Agent 的 PDF 解析“西游记”

waterfeeling2026-01-14 8:43

引言：54 分的"暴击"

在构建"论文自动复现 Agent"的征途中，我本以为最难的是代码生成或算法对齐。然而，现实在第一步就给了我一记响亮的耳光。

在上一篇博客中，我利用 PyMuPDF 搭建了基础解析器。结果出炉：54 分（D 级）。

看着那份惨不忍睹的报告：元数据丢失严重，文档结构混乱。最致命的是------公式提取率为 0。对于理工科论文复现来说，没有公式就像写程序没有变量名。

第一章：元数据的"精雕细琢"

我首先针对 30% 的低完整度元数据进行了"外科手术"。转向了基于布局逻辑的启发式规则：

Header 区块锁定：识别第一页顶部的特定区域。
作者域特征提取：通过邮箱后缀（@）分离作者列表。
动态截断逻辑：定位 "Abstract" 标签并设定截取终点。

战报：元数据得分由 30 跃升至 100（满分），总分回退至 68 分。

第二章：寻找解析的"圣杯"------Marker 实验

公式解析的难点在于数学符号。我将目光锁定了开源利器：Marker。

本地环境的"陷阱"：numpy 2.x 与 pandas 的版本冲突，以及 3GB 模型的下载噩梦。
云端的"救赎"：转向 Datalab API。解决 aiohttp 压缩编码 Bug 后，API 顺利打通。

第三章：92 分的终章

当我把 Datalab 返回的 Markdown 文本喂进评测系统时，分数瞬间"炸"开了：

总分：92 分
等级：A+
公式质量：显著提升

从 54 到 92，是解析思路从"纯文本提取"到"多模态布局理解"的跨越。

核心教训

别跟公式硬碰硬：使用基于视觉布局的工具。
效率高于执念：环境配置过久就果断使用云端 API。
永远要有"底线"：保留 PyMuPDF 作为 fallback。

上一篇：【云原生-00】生态解读

下一篇：软件需求设计方法学全程实例剖析幻灯片04-系统用例图和用例规约[202601更新]

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03Qwen3.5 开源全解析：从 0.8B 到 397B，代际升级 + 全场景选型指南 04本地部署 OpenClaw + DeepSeek-R1 完全指南 05OpenClaw macOS 完整安装与本地模型配置教程（实战版）06OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 07UV安装并设置国内源 08得物前端部门，没了 09“wsl --install -d Ubuntu-22.04”下载慢，中国地区离线安装 Ubuntu 22.04 WSL方法（亲测2025年5月6日）10OpenClaw 接入 QQ Bot 完整实践指南