原文: https://mp.weixin.qq.com/s/5XAWHqjZspU9xtC_CckV3w

关注gzh: AI-Frontiers

RAG往期文章推荐

检索增强生成（Retrieval-Augmented Generation, RAG）架构已成为LLM落地企业级应用的核心范式。但，在实际部署中，普遍面临「垃圾进，垃圾出」（Garbage In, Garbage Out）的困境。RAG系统的上限往往不由模型（如GPT-4或DeepSeek-V3）决定，而是由上游的数据处理流水线（ETL Pipeline）所限制。

本文旨在对构建高性能开源RAG系统的关键模块进行详尽的技术拆解，并附带所有核心工具的GitHub、官方文档及模型下载地址。我们将深入剖析七大主流开源解析工具（Unstructured, Marker, PyMuPDF, Docling, MinerU, PaddleOCR, DeepSeek-OCR）的架构原理与性能特征。随后，将沿着数据流向，系统性梳理切块、向量化、检索及排序等下游模块的最新开源技术进展，意在为构建企业级、高精度的RAG系统提供理论依据与实战参考。

核心模块深度解析：文档解析与版面分析

文档解析模块的任务是将非结构化的文档，如PDF/Images/PPT/word/excel，还原为机器可理解的结构化文本，即Markdown/JSON。该过程涉及OCR（Optical Character Recognition，光学字符识别）、OLA（ Layout Analysis，版面分析）、TSR（Table Structure Recognition，表格结构识别）及阅读顺序重构等多个复杂子任务。

Unstructured：全能型ETL中间件架构

官方文档: https://docs.unstructured.io
Github: https://github.com/Unstructured-IO/unstructured
适用场景: 企业级通用ETL流程，处理多源异构数据（邮件、办公文档、PDF混合）

目前RAG生态中覆盖面最广的通用ETL框架，其设计哲学是提供一个标准化的归一化层，将包括PDF、HTML、Email、PPTX在内的25种以上异构格式转换为统一的JSON Schema

架构原理与分区策略

Unstructured的核心是分区机制，该机制并非依赖单一模型，而是根据文档类型动态匹配不同处理管线：

基于规则的快速解析（Fast Strategy）：针对原生数字PDF，通过pdfminer.six等底层库直接提取文本流，速度快、CPU开销低，但无法处理扫描件，且易丢失复杂双栏阅读顺序；
高精度视觉解析（Hi-Res Strategy）：作为处理复杂文档的核心，借助YOLOX/Detectron2架构的目标检测模型，将页面分割为标题、正文、列表项、表格、图片等语义区块，能精准识别并剔除页眉页脚，避免干扰RAG 上下文；
表格处理子系统：检测到表格区块时触发专属识别模块，开源版本依赖Tesseract OCR或简单HTML转换，商业 API则集成更高级视觉模型恢复复杂行列结构。

局限性与生态位分析

Unstructured因格式支持广泛成为RAG初学者首选，但开源版与商业版性能差距显著：开源版缺少针对金融报表、学术论文等特定领域微调的OCR模型，无法使用最新VLM（视觉语言模型）功能；hi_res策略处理长文档计算成本高，且依赖Tesseract作为OCR引擎，处理非英语文档时精度受限。不过其标准化的元数据输出（含父子节点关系、页码坐标），为下游混合切块提供了优质数据基础。

Marker：专注于科学文献的高精度转换管线

Github: https://github.com/VikParuchuri/marker
适用场景: 学术论文、教科书、技术手册（公式/代码密集型文档）

由Vik Paruchuri开发，专为将PDF转换为高质量Markdown而设计，特别针对数学公式、代码块和学术排版进行了深度优化。

深度学习流水线机制

Surya版面分析: 作为高精度OCR与版面分析模型，能精准检测文本行、阅读顺序、列边界，还可通过视觉特征判断文本逻辑流向，解决多栏排版（如双栏论文）的乱序问题。
Texify公式引擎: 针对科学文献的数学公式痛点，可将位图/PDF绘制指令形式的公式转换为标准LaTeX代码，让Marker处理arXiv论文、技术手册时语义完整性远超传统OCR。
混合****OCR：优先提取PDF内嵌文本层保证速度，对公式区域/扫描图片自动切换视觉模型识别，兼顾精度与吞吐量。

增强的后处理与LLM融合

Marker新增可选--use_llm参数，可在后处理阶段调用轻量级 LLM（如 Gemini Flash、本地模型），解决文档解析「最后一公里」问题：合并跨页表格、修正 OCR 乱码、从复杂表单提取结构化键值对。测试表明，开启LLM辅助后，Marker表格还原度优于单一模型。

PyMuPDF (Fitz)：极致速度的底层流式解析

GitHub: https://github.com/pymupdf/PyMuPDF
官方文档: https://pymupdf.readthedocs.io
适用场景: 海量原生数字PDF清洗，纯CPU环境，对速度要求极高（毫秒级）的场景。

PyMuPDF是MuPDF引擎的Python绑定，代表了文档解析的另一个极端，极致的工程化效率。与基于AI的视觉模型不同，PyMuPDF直接操作PDF文件的内部对象结构和渲染流。

文本块与字典模式的技术原理

PyMuPDF的核心能力在于其对PDF底层指令的解析：

get_text("blocks")：通过分析文本在页面上的物理位置坐标，利用启发式算法将相邻的文本行聚类为段落，该方法速度极快（毫秒级），但对排版的理解是浅层的，容易将页眉页脚误判为正文。
get_text("dict")：更为精细的提取模式，返回一个层级化的JSON对象：Page -> Block -> Line -> Span -> Char。其中，Span（文本跨度）是包含相同字体、大小和颜色的最小文本单元。这一层级信息对于RAG至关重要，开发者可以通过分析Span的字体大小来区分标题和正文，或通过颜色过滤掉水印。

局限性与适用场景

PyMuPDF不支持扫描件（需外接Tesseract），也无原生语义理解能力（仅能识别文本位置，无法区分摘要、参考文献等语义）。但在处理海量原生数字化合同、财报、电子书时，其纯CPU运行、超高吞吐量的优势，使其成为清洗大规模预训练语料的首选；对于简单RAG应用，通过定制Python脚本过滤页眉页脚后，PyMuPDF的性价比也最高。

Docling：IBM的企业级多模态文档理解框架

GitHub: https://github.com/docling-project/docling
官方文档: https://docling-project.github.io/docling/
Hugging Face: https://huggingface.co/ibm-granite/granite-docling-258M
适用场景: Agentic RAG（需要理解文档结构供Agent调用），高精度表格还原

Docling是IBM Research推出的新一代文档处理库，旨在打通传统文档与生成式AI的壁垒，特别强调对表格结构和文档层级的还原。Docling不仅仅是一个解析器，定义了一种统一的文档对象模型，旨在为Agentic RAG（代理式RAG）提供结构化支撑。

统一文档表示与VLM集成

DoclingDocument 对象模型：将PDF、DOCX、HTML等输入转为统一内部表示，保留Section、Group、Body、Furniture层级结构，支持RAG应用「基于结构的切块」，如仅检索指定章节表格，而非盲目文本切片。
Granite VLM流水线：Docling集成IBM自研Granite视觉语言模型，以端到端方式理解页面，除文字转录外，还能解析图表（如将柱状图/折线图转为数据描述），适配金融研报分析需求。
表格结构恢复：采用TableFormer等变体算法，高保真重建含合并单元格、无框线的复杂表格，支持导出为 HTML/Markdown 格式。

与Agent生态的深度融合

Docling设计高度适配Agentic Workflow，提供MCP（Model Context Protocol）服务，可让Claude Desktop等 AI代理直接调用其文档解析能力。在构建复杂RAG Agent时，Docling可作为工具被动态调用，按用户意图提取指定信息。

MinerU (PDF-Extract-Kit)：面向LLM训练的高质量语料清洗

GitHub: https://github.com/opendatalab/MinerU
HuggingFace: https://huggingface.co/opendatalab
官方文档: https://opendatalab.github.io/MinerU/
适用场景: 构建高质量知识库，处理包含复杂数学符号和双栏排版的学术文献

MinerU是OpenDataLab（上海人工智能实验室）为支持InternLM（书生·浦语）大模型预训练而开发的专用工具。其核心目标是从最复杂的科学文献中提取出零噪声、语义连贯的Markdown数据。

PDF-Extract-Kit与高精度管线

MinerU的后端引擎被称为PDF-Extract-Kit，这是一个集成了多种SOTA模型的综合工具包：

布局分析：利用基于YOLO架构改进的模型，精确区分正文、标题、图片、表格、脚注和边注。MinerU特别强调对边注和页眉页脚的剔除，确保生成的Markdown文本流在语义上是连续的，不会被页面元数据打断。
公式与符号转换：针对学术论文中的数学符号，MinerU内置了强大的转换逻辑，能够将复杂的数学表达式还原为LaTeX。这解决了传统OCR将"$$x^2$$"识别为"x2"的常见错误，对于构建理工科知识库具有决定性意义。
乱码自动检测：在处理PDF时，经常遇到编码崩坏（Garbled Text）的情况。MinerU内置了自动检测机制，一旦发现直接提取的文本乱码率过高，会立即无缝切换至OCR模式，利用视觉信息重构文本，保证了极高的召回率。

产学研结合的工程优化

MinerU支持CUDA加速，还适配华为昇腾NPU、Apple Silicon MPS，适配性广泛；其多模态Markdown输出格式保留图片占位符并关联高分辨率图像，适合构建多模态RAG（MM-RAG）系统。

PaddleOCR (PP-Structure)：工业级表格与版面还原

GitHub: https://github.com/PaddlePaddle/PaddleOCR
官方文档: https://paddlepaddle.github.io/PaddleOCR/
Hugging Face: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
适用场景: 金融报表识别、票据处理、需要私有化部署到边缘设备的场景。

PaddleOCR 是百度飞桨体系下的明星项目，其PP-Structure模块代表了工业界在文档结构化领域的最高水平。与学术界的实验性模型不同，PaddleOCR极其强调模型在服务器、移动端及嵌入式设备上的部署能力。

PP-StructureV2/V3核心技术

版面分析（Layout Analysis）：PP-Structure视版面分析为典型的计算机视觉任务，利用轻量级的主干网络（如MobileNet）配合FPN结构，快速检测页面元素。其优势在于拥有庞大的中文及多语言预训练数据，对中文文档的版面理解能力尤为突出。
表格识别（Table Recognition）：这是PaddleOCR的杀手锏。它采用了SLANet（Structure-Location Alignment Network）等先进算法，将表格识别解耦为结构预测和单元格坐标回归。即使是扭曲、倾斜或光照不均的拍照文档表格，PP-Structure也能还原出精确的Excel或HTML结构。
键值对提取（KIE）：针对发票、表单等半结构化文档，PP-Structure集成了SER（语义实体识别）和RE（关系抽取）模型，能够直接提取「姓名-张三」、「金额-100元」等键值对关系，这对于财务RAG系统极具价值。

DeepSeek-OCR：端到端的生成式解析革命

GitHub: https://github.com/deepseek-ai/DeepSeek-OCR
Github: https://github.com/deepseek-ai/DeepSeek-OCR-2
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR
适用场景: 传统OCR无法处理的极复杂排版（如报纸、杂志、手稿），需要视觉理解的任务

DeepSeek-OCR代表了文档解析技术的最新范式转移，从流水线式向端到端生成式演进。基于DeepSeek-VL2多模态大模型，该系统不再将解析拆解为检测、识别、拼接等步骤，而是直接看图说话。

视觉因果流（Visual Causal Flow）

视觉Token化：DeepSeek-VL2引入了动态分辨率策略，将高分辨率的文档图像切片并编码为视觉Token序列。这些Token与文本Token共享同一个Transformer嵌入空间。
生成式输出：模型接收文档图像作为输入，直接自回归地生成Markdown代码。这种方法的革命性在于它具备了推理能力。例如，在解析一个复杂的流程图时，传统OCR只能输出零散的文字，而DeepSeek-OCR可以根据箭头和布局生成描述性的文本：步骤A导致了步骤B。它能理解复选框旁边的文字是标签，从而输出"Checked: Yes"。
上下文光学压缩：为了处理长文档，DeepSeek设计了视觉压缩机制，在保留高频细节（如文字笔画）的同时压缩低频背景信息，使得在有限的Context Window内处理多页文档成为可能。

文档解析模块对比总结表


特性/工具	Unstructured	Marker	PyMuPDF	Docling	MinerU	PaddleOCR	DeepSeek-OCR
核心架构	混合策略（规则+视觉模型）	深度学习流水线 (Surya + Texify)	底层PDF流解析 (C++绑定)	混合架构 (统一DOM + VLM)	深度学习流水线 (PDF-Extract-Kit)	深度学习 (PP-Structure / OCR)	端到端生成式VLM (MoE架构)
解析策略	分区	版面检测 -> Markdown生成	文本块/跨度提取	对象模型重构 -> 导出	布局分析 -> 多模态MD	检测+识别+结构化回归	视觉Token -> 文本生成
最佳适用场景	通用ETL，多格式混合处理	科学论文、数学公式、书籍	海量原生数字PDF清洗	企业级文档、Agentic RAG	学术文献、LLM预训练数据	表单、票据、复杂表格	极复杂排版、视觉推理任务
表格处理能力	HTML/CSV (开源版能力一般)	高精度 (支持跨页合并)	基础 (仅依赖文本位置)	高精度 (结构恢复强)	高精度 (转HTML)	SOTA (擅长扭曲/无框线表)	生成式 (语义描述/结构化)
公式/数学支持	基础 (依赖OCR)	卓越 (Texify转LaTeX)	无 (仅原始字符)	良好 (支持LaTeX)	卓越 (LaTeX转换)	良好 (字符识别)	卓越 (生成LaTeX)
处理速度	中等 (取决于策略)	中等 (建议GPU)	极快 (纯CPU)	中等偏慢 (VLM模式)	中等 (建议GPU)	快 (提供轻量级模型)	慢 (大模型推理开销)
输入模态	多格式 (PDF, PPT, HTML, Email)	PDF, EPUB, Images	PDF, XPS, Ebook	多格式 (PDF, DOCX, Images)	PDF, Images	Images, PDF	Images, PDF
输出格式	JSON (标准化Schema)	Markdown, JSON, HTML	Dict, String	Markdown, JSON, Doctags	Markdown (多模态), JSON	JSON, Excel, HTML	Markdown, JSON
主要依赖	Tesseract, Poppler, NLTK	PyTorch, Surya, Texify	MuPDF (无外部依赖)	PyTorch, Granite Model	PyTorch, YOLO, Ray	PaddlePaddle	PyTorch, FlashAttention

切块模块：从文本流到语义单元

解析后的数据必须经过切块才能进入向量空间。切块策略直接决定了检索的粒度与上下文完整性。

策略演进

固定窗口切块 ：这是最基础的方法，利用LangChain的RecursiveCharacterTextSplitter按字符数（如512 tokens）切分，并设置重叠（Overlap）。优点是稳定，缺点是容易切断语义，例如将一句话截断在两个块中。
语义切块：利用嵌入模型计算句与句之间的余弦相似度。当相似度骤降时，意味着话题发生了转换，系统在此处进行切分。这种方法能保证每个块包含一个完整的语义主题。开源库Chonkie和SemChunk提供了轻量级的实现，支持在不依赖重型框架的情况下快速进行语义切分。
层级切块：利用Docling或MinerU输出的结构化信息（Header, Section），先按章节切大块，再在大块内切小块。检索时匹配小块，但返回大块（Parent Document Retrieval），兼顾了检索的精准度与生成的上下文丰富度。

智能Agent切块

最新的趋势是Agentic Chunking，即利用LLM将文本重写为独立的「命题」。例如，将「张三，百度的工程师，去了北京」拆解为「张三是百度的工程师」和「张三去了北京」两个独立事实。虽然成本高，但能显著提升复杂问题的检索召回率。

资源链接

Chonkie

一个轻量级、极速的RAG切块库，专注于语义切分。
- GitHub : https://github.com/chonkie-inc/chonkie
- Docs : https://docs.chonkie.ai/

Semantic Router

虽然主要用于路由，但也包含强大的语义分析层，可用于高级切块。
- GitHub: https://github.com/aurelio-labs/semantic-router

向量化模块：语义空间的构建

向量化是将文本投影到高维语义空间的过程。在2025-2026年，MTEB (Massive Text Embedding Benchmark) 排行榜成为了衡量模型性能的黄金标准。开源模型在这一领域已经全面追平甚至超越了闭源商业模型（如OpenAI text-embedding-3）

BGE (BAAI General Embedding) 系列

GitHub: https://github.com/FlagOpen/FlagEmbedding
Hugging Face: https://huggingface.co/BAAI/bge-m3
官方文档: https://bge-model.com/
参考资料：https://www.bentoml.com/blog/a-guide-to-open-source-embedding-models

由北京智源人工智能研究院开发。BGE-M3是目前的SOTA模型，支持多语言（100+）、多功能（稠密、稀疏、多向量检索）及长文本（8192 tokens）。其独特的混合检索能力使其成为构建多路召回系统的首选。该模型集成了三种检索范式：

密集检索（Dense Retrieval）：基于语义向量。
稀疏检索（****Sparse Retrieval）：类似于BM25的词汇匹配，用于弥补密集检索在专有名词匹配上的不足。
多向量检索（Multi-Vector/ColBERT）：保留每个Token的向量进行细粒度交互。这种"全能型"设计使得 BGE-M3 能够适应多语言（100+）、长文本（8192 Token）的复杂场景。

Qwen-Embedding

Huggingface: https://huggingface.co/collections/Qwen/qwen3-embedding

阿里巴巴推出的Qwen3-Embedding系列模型在MTEB榜单上表现优异，特别是在多语言任务和长上下文任务中。

弹性维度（Matryoshka Representation Learning, MRL）：Qwen模型支持弹性输出维度。用户可以根据存储预算，灵活选择使用前1024维甚至512维向量，而性能损失微乎其微。这使得RAG系统可以在速度和精度之间进行动态权衡。

E5系列

Hugging Face: https://huggingface.co/intfloat/multilingual-e5-large

E5系列 (EmbEddings from bidirEcTional Encoder rEpresentations)模型，如multilingual-e5-large，通过指令微调优化了非对称搜索任务（短Query找长Passage）。使用时需添加前缀query:和passage:，在MTEB榜单上长期霸榜。

Jina Embeddings v3

Hugging Face: https://huggingface.co/jinaai/jina-embeddings-v3

专为长文档和代码设计，利用ALiBi位置编码外推上下文长度，非常适合技术文档库的RAG。

检索模块（Retrieval）：向量数据库选型

向量数据库是RAG系统的长时记忆。当前市场已经形成了以Milvus、Qdrant和Weaviate为代表的开源三巨头，以及pgvector这种依托于PostgreSQL的轻量化方案。

Milvus：云原生时代的巨舰

GitHub: https://github.com/milvus-io/milvus
文档: https://milvus.io/docs

由Zilliz开发的Milvus采用了存储与计算分离的云原生架构，专为处理十亿级（Billion-scale）向量数据而设计。

核心特性：支持分布式部署、Kubernetes 编排、多租户隔离以及多种索引类型（HNSW, DiskANN）。它适合需要极高吞吐量和大规模数据分片的企业级应用。

Qdrant：高性能与灵活性的平衡

GitHub: https://github.com/qdrant/qdrant
文档: https://qdrant.tech/documentation/

Qdrant基于Rust语言开发，以高性能和低延迟著称。

核心特性：将向量索引与Payload（元数据）索引紧密结合，支持强大的过滤查询（Filtering）。与传统的先检索后过滤不同，Qdrant能够在索引遍历过程中应用过滤条件，极大提升了混合查询的效率。其推荐系统和去重功能也非常完善。

Weaviate：AI原生的模块化数据库

GitHub: https://github.com/weaviate/weaviate
文档: https://weaviate.io/developers/weaviate

Weaviate不仅仅是一个数据库，更像是一个AI中间件平台。

核心特性：内置了大量的模块，可以直接在数据库层面集成OpenAI、HuggingFace等模型的向量化能力。用户只需存入文本，Weaviate会自动调用模型生成向量。其GraphQL接口也为复杂的数据关联查询提供了便利。

pgvector：PostgreSQL用户的务实之选

GitHub: https://github.com/pgvector/pgvector

pgvector是PostgreSQL的一个开源扩展，为现有的关系型数据库添加了向量存储和相似度搜索功能。

核心特性：允许向量数据与业务数据（如用户信息、订单记录）存储在同一张表中，天然支持ACID事务和复杂的SQL Join操作。对于数据量在千万级别以下，且已有Postgres基础设施的团队，这是成本最低的方案。

排序模块：精度的最后一道防线

检索模块通常返回 Top-K（如50-100）个候选片段，但这些片段是基于粗略的向量相似度获取的。为了让LLM获得最精准的上下文，需要引入重排序模块。重排序模型通常采用交叉编码器架构，它将查询和文档同时输入模型，计算它们之间的深层交互，从而给出极高精度的相关性评分。

BGE-Reranker：开源重排序的标杆

GitHub: https://github.com/FlagOpen/FlagEmbedding
Hugging Face: https://huggingface.co/BAAI/bge-reranker-v2-m3

BGE-Reranker系列（v2, v2.5）是目前开源社区中最强大的重排序模型之一。

多语言能力：支持中英等多语言混合排序。
轻量化蒸馏：最新的BGE-Reranker-v2.5-Gemma2-Lightweight通过层级蒸馏技术，在保持LLM级排序能力的同时，大幅降低了推理延迟，使其能够部署在实时性要求较高的生产环境中。

RankGPT：利用LLM进行列表排序

GitHub : https://github.com/sunnweiwei/RankGPT

RankGPT探索了一种不同的路径：利用生成式 LLM（如 GPT-4, Qwen）的推理能力进行排序。

列表式（Listwise）排序：不同于Cross-Encoder 对每对 (Query, Doc) 单独打分，RankGPT将Query和一组文档（如10个）同时输入LLM，并提示模型「请按相关性对这些文档进行排序」。这种方法考虑了文档之间的相对关系，往往能获得比Pairwise方法更高的MAP指标，但延迟和成本也显著增加。

FlashRank：极致轻量化的CPU方案

GitHub: https://github.com/PrithivirajDamodaran/FlashRank

FlashRank 是一个专为无 GPU 环境设计的 Python 库。

核心特性：基于量化后的TinyBERT等微型模型，能够在普通CPU上实现毫秒级的重排序。这对于部署在AWS Lambda等Serverless环境或边缘设备上的RAG应用至关重要。

选型建议

构建开源RAG系统已不再是简单的模型堆砌，而是对数据处理全链路的精细化工程。

解析层：对于通用场景，推荐使用Unstructured进行快速原型开发；对于科学文献和复杂报表，Marker和MinerU是目前的最佳实践；若需处理海量原生PDF，PyMuPDF不可或缺；而对于追求极致结构化和Agent交互的企业级应用，Docling展现了巨大的潜力。
数据流层：应摒弃固定的字符切块，转向语义切块或层级切块。
模型层：BGE-M3（Embedding）配合BGE-Reranker-v2-m3（Reranking）构成了目前最强的开源语义理解组合，配合Milvus或Qdrant可构建出性能媲美商业闭源方案的RAG系统。

随着DeepSeek-OCR等生成式解析技术的成熟，未来的文档解析将逐渐具备推理能力，进一步模糊感知与认知的边界，为RAG系统注入更深层的智能。

收藏！RAG核心工具大全: 7大解析工具+向量模型+数据库+检索排序