知识点之Agent中的RAG遇到PDF如何进行解析处理？

Agent中的RAG遇到PDF如何进行解析处理？

概览部分

内容摘要

本视频深入探讨了在Agent系统中使用RAG（Retrieval-Augmented Generation）技术时，如何处理PDF文档的问题。视频指出，直接将PDF转换为文本并切片的常规做法存在诸多缺陷，如信息丢失、结构破坏等。真正的解决方案需要从PDF类型识别、结构还原、语义切分和工具链调用四个关键步骤入手，确保内容可追溯、引用准确，并能有效支持复杂查询。

核心观点

PDF处理不能简单地转成纯文本，需根据类型采取不同策略
保留文档结构是实现精准检索和引用的关键
语义切分比机械切字数更符合实际需求
工具链按需调用能提升处理效率和准确性
可追溯性和评测机制是生产环境中的核心要求

1. PDF处理的核心挑战

在RAG（Retrieval-Augmented Generation）系统中，当面对大量PDF文件时，传统的"先转文本再切片"的方法往往难以满足实际需求。这不仅是因为PDF格式本身复杂多变，更因为其内容结构远超普通文本，包含大量图表、表格、页码、章节标题等非文本元素。

关键观点: 在真实项目中，PDF永远不是一段干净的纯文本。处理方式直接影响后续的召回精度、引用准确性和模型推理效果。

例如：

合同类PDF可能包含条款、验码、复件、签章等结构化信息
财报类PDF通常包含大量表格、图表和年份指标
扫描版PDF的文字本身就是图片，需要OCR处理
技术文档可能包含两栏排版、流程图、代码块、角柱等复杂结构

如果直接将其当作普通文本处理，会导致：

表格被拆乱、页眉页脚被重复召回
图片中的文字完全丢失
引用不到原文来源，无法溯源验证

因此，真正考验的是对PDF处理难点的理解，而不仅仅是是否知道如何使用RAG。

2. 四步成熟处理流程

2.1 第一步：PDF类型识别

处理PDF的第一步不是直接抽取文本，而是判断它属于哪种类型。不同的PDF需要采用不同的解析方式：

PDF类型	处理方式	说明
原生文本PDF	文本解析	如产品说明书、论文、普通文档
扫描版PDF	OCR识别	如合同扫描件、发票、纸质资料拍照生成的文件
图文混排PDF	多模态理解	包含图表、流程图、代码块、页眉页脚等复杂结构

#mermaid-svg-oZYWzWVLqNf3ChAW{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-animation-slow{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 50s linear infinite;stroke-linecap:round;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-animation-fast{stroke-dasharray:9,5!important;stroke-dashoffset:900;animation:dash 20s linear infinite;stroke-linecap:round;}#mermaid-svg-oZYWzWVLqNf3ChAW .error-icon{fill:#552222;}#mermaid-svg-oZYWzWVLqNf3ChAW .error-text{fill:#552222;stroke:#552222;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-thickness-normal{stroke-width:1px;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-thickness-thick{stroke-width:3.5px;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-pattern-solid{stroke-dasharray:0;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-thickness-invisible{stroke-width:0;fill:none;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-pattern-dashed{stroke-dasharray:3;}#mermaid-svg-oZYWzWVLqNf3ChAW .edge-pattern-dotted{stroke-dasharray:2;}#mermaid-svg-oZYWzWVLqNf3ChAW .marker{fill:#333333;stroke:#333333;}#mermaid-svg-oZYWzWVLqNf3ChAW .marker.cross{stroke:#333333;}#mermaid-svg-oZYWzWVLqNf3ChAW svg{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;}#mermaid-svg-oZYWzWVLqNf3ChAW p{margin:0;}#mermaid-svg-oZYWzWVLqNf3ChAW .label{font-family:"trebuchet ms",verdana,arial,sans-serif;color:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster-label text{fill:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster-label span{color:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster-label span p{background-color:transparent;}#mermaid-svg-oZYWzWVLqNf3ChAW .label text,#mermaid-svg-oZYWzWVLqNf3ChAW span{fill:#333;color:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW .node rect,#mermaid-svg-oZYWzWVLqNf3ChAW .node circle,#mermaid-svg-oZYWzWVLqNf3ChAW .node ellipse,#mermaid-svg-oZYWzWVLqNf3ChAW .node polygon,#mermaid-svg-oZYWzWVLqNf3ChAW .node path{fill:#ECECFF;stroke:#9370DB;stroke-width:1px;}#mermaid-svg-oZYWzWVLqNf3ChAW .rough-node .label text,#mermaid-svg-oZYWzWVLqNf3ChAW .node .label text,#mermaid-svg-oZYWzWVLqNf3ChAW .image-shape .label,#mermaid-svg-oZYWzWVLqNf3ChAW .icon-shape .label{text-anchor:middle;}#mermaid-svg-oZYWzWVLqNf3ChAW .node .katex path{fill:#000;stroke:#000;stroke-width:1px;}#mermaid-svg-oZYWzWVLqNf3ChAW .rough-node .label,#mermaid-svg-oZYWzWVLqNf3ChAW .node .label,#mermaid-svg-oZYWzWVLqNf3ChAW .image-shape .label,#mermaid-svg-oZYWzWVLqNf3ChAW .icon-shape .label{text-align:center;}#mermaid-svg-oZYWzWVLqNf3ChAW .node.clickable{cursor:pointer;}#mermaid-svg-oZYWzWVLqNf3ChAW .root .anchor path{fill:#333333!important;stroke-width:0;stroke:#333333;}#mermaid-svg-oZYWzWVLqNf3ChAW .arrowheadPath{fill:#333333;}#mermaid-svg-oZYWzWVLqNf3ChAW .edgePath .path{stroke:#333333;stroke-width:2.0px;}#mermaid-svg-oZYWzWVLqNf3ChAW .flowchart-link{stroke:#333333;fill:none;}#mermaid-svg-oZYWzWVLqNf3ChAW .edgeLabel{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-oZYWzWVLqNf3ChAW .edgeLabel p{background-color:rgba(232,232,232, 0.8);}#mermaid-svg-oZYWzWVLqNf3ChAW .edgeLabel rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-oZYWzWVLqNf3ChAW .labelBkg{background-color:rgba(232, 232, 232, 0.5);}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster rect{fill:#ffffde;stroke:#aaaa33;stroke-width:1px;}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster text{fill:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW .cluster span{color:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW div.mermaidTooltip{position:absolute;text-align:center;max-width:200px;padding:2px;font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:12px;background:hsl(80, 100%, 96.2745098039%);border:1px solid #aaaa33;border-radius:2px;pointer-events:none;z-index:100;}#mermaid-svg-oZYWzWVLqNf3ChAW .flowchartTitleText{text-anchor:middle;font-size:18px;fill:#333;}#mermaid-svg-oZYWzWVLqNf3ChAW rect.text{fill:none;stroke-width:0;}#mermaid-svg-oZYWzWVLqNf3ChAW .icon-shape,#mermaid-svg-oZYWzWVLqNf3ChAW .image-shape{background-color:rgba(232,232,232, 0.8);text-align:center;}#mermaid-svg-oZYWzWVLqNf3ChAW .icon-shape p,#mermaid-svg-oZYWzWVLqNf3ChAW .image-shape p{background-color:rgba(232,232,232, 0.8);padding:2px;}#mermaid-svg-oZYWzWVLqNf3ChAW .icon-shape .label rect,#mermaid-svg-oZYWzWVLqNf3ChAW .image-shape .label rect{opacity:0.5;background-color:rgba(232,232,232, 0.8);fill:rgba(232,232,232, 0.8);}#mermaid-svg-oZYWzWVLqNf3ChAW .label-icon{display:inline-block;height:1em;overflow:visible;vertical-align:-0.125em;}#mermaid-svg-oZYWzWVLqNf3ChAW .node .label-icon path{fill:currentColor;stroke:revert;stroke-width:revert;}#mermaid-svg-oZYWzWVLqNf3ChAW :root{--mermaid-font-family:"trebuchet ms",verdana,arial,sans-serif;} 原生文本
扫描版
图文混排
输入PDF
判断类型?
文本解析
OCR识别
多模态理解

关键观点: 如果第一步判断错误，后续所有处理都会出错。

2.2 第二步：还原文档结构

许多团队在处理PDF时，会直接将其抽成一大段纯文本，这种做法虽然省事，但会丢掉很多重要信息。比如合同里的第二章第十条、附件一，这些结构非常关键。如果你只拿到一句话，却不知道它属于哪个章节、哪一页、哪一个条款，就很难做引用和验证。

再比如财报里的一个数字，如果你不知道它来自哪张表、哪个年份、哪个指标，那这个数字就会变得危险。模型引用它的时候看起来专业，但你根本无法去验证。

关键观点: 生产环境里做PDF RAG一定要尽量保留文档结构，包括页码、标题、层级、章节关系、段落边界、表格位置、图片说明、页眉页脚等。

这里还有一个重要的原则就是RAP（Relevance and Position）：不要只把内容切出来就行，还要让每一段内容知道自己在原文里的位置，因为只有位置清楚，后面才能做引用、溯源和验证。

2.3 第三步：按语义切片

很多人在做RAG时喜欢按固定长度切片，比如每500字或800字切一段。这种方式在普通文章里还能勉强用，但遇到PDF就很容易翻车。因为PDF里的内容结构复杂，标题和正文不能随便拆开，表格不能按普通段落切，图片也不能直接丢掉。

关键观点: 更合理的做法是按语义结构来切，而不是机械切字数。

具体来说：

一个标题下面有几段内容，可以放在同一个片段中
一个合同条款最好保持完整
一张表格可以单独抽出来转成结构化文本
一张图表可以让模型生成图表摘要，再和页码、标题一起存进去

同时，每一个片段都要带上元数据（metadata），比如：

文档ID
页码
章节标题
条款编号
表格编号
图片描述
版本时间

这样做的好处是，agent检索到内容之后，不只是拿到一句孤零零的话，而是知道这句话来自哪里，上下文是什么，属于哪一部分。

在更精细的方案中，还可以给每个片段补一段上下文说明，比如告诉模型这段内容来自某份合同的付款条款部分，主要说明尾款支付条件。

2.4 第四步：工具链调用

Agent不建议把整份PDF一次性塞进上下文，这样不仅浪费token，而且容易让模型抓不住重点。更好的方式是把PDF的不同能力拆成工具，让agent按需调用。

例如：

search pdf：负责检索相关片段
read the page：负责读取指定页内容
extract table：负责抽取表格
analyze chart：负责理解图表
code source：负责返回原文、引用和页码

用户问一个简单事实，比如"这份合同的付款周期是多少"，agent可以先走检索。

用户问复杂问题，比如"对比一下前三年的收入变化"，那agent就需要先找到相关章节，再读取表格，最后做归纳。

用户问"这个流程图说明了什么？"，那就不能只查文本，而是要调用图表或视觉分析工具。

关键观点: 每个片段都应带有元数据，便于后续检索和引用。

3. 可追溯性与评测机制

在生产环境中，PDF RAG必须做到可追溯，引用也必须做评测。回答时最好能带上页码、章节、原文片段甚至表格编号，否则模型说的再自然，也很难判断它有没有编造。

评测也不能只看最终答案对不对，还要看以下几个更细的指标：

检索到的片段对不对？
页码有没有错？
表格有没有解析乱？
OCR有没有漏字？
图表里的信息有没有被正确理解？
引用的原文能不能支持最终回答？

这些问题才是PDF RAG在真实业务中最容易出事故的地方。

4. 总结与行动建议

全文总结

本视频围绕"Agent中的RAG遇到PDF如何进行解析处理"这一主题，深入剖析了PDF处理的复杂性和挑战。通过四个关键步骤------PDF类型识别、还原文档结构、按语义切片、工具链调用，提出了一个成熟的处理方案。同时强调了可追溯性和评测机制的重要性，确保整个流程可靠、可控、可验证。

核心收获

PDF处理不能简单转文本，需根据类型选择合适方式
保留文档结构是实现精准检索和引用的关键
语义切分比机械切字数更符合实际需求
工具链按需调用能提升处理效率和准确性
可追溯性和评测机制是生产环境中的核心要求
每个片段都应带有元数据，便于后续检索和引用
检索、页码、表格、OCR、图表理解、引用验证都是评测的重要维度

行动建议

在项目初期明确PDF类型识别逻辑
优先保留文档结构，避免信息丢失
使用语义切片而非固定长度切片
构建工具链，按需调用不同功能模块
实施可追溯机制，确保引用可验证
设计评测指标，覆盖检索、页码、表格、OCR、图表理解等多个维度

延伸思考

如何优化OCR识别的准确率？
如何提高多模态模型对复杂PDF的理解能力？
如何构建高效的PDF解析工具链？
如何设计一套完整的PDF RAG评测体系？

附录

术语表

RAG (Retrieval-Augmented Generation): 检索增强生成，结合检索和生成模型的技术。
OCR (Optical Character Recognition): 光学字符识别，用于将图像中的文字转换为可编辑文本。
RAP (Relevance and Position): 关联性与位置，强调内容不仅要相关，还需知道其在原文中的位置。
元数据 (Metadata): 描述内容的额外信息，如文档ID、页码、章节标题等。