RAG 第二阶段：数据工程 —— 视觉解析与语义重构

🛠️ RAG 第二阶段：数据工程 ------ 视觉解析与语义重构

0. 前言：从"读字"到"识图"

传统的 RAG 加载只是简单的 PDF -> Text。而前沿的解析增强 (Parsing-Augmented) 认为：文档的视觉布局（标题层级、表格边框、图片位置）本身就携带了巨大的语义信息。

本章将带你掌握目前工业界最顶尖的文档处理流程：视觉布局分析 -> Markdown 结构化 -> 上下文增强切分。

1. 工业级文档解析：视觉驱动 (Vision-Language Parsing)

传统的 PDF 处理是"盲人摸象"，只提取字符流；现代视觉解析则是"先看后读"，模仿人类视觉系统。

1.1 核心技术路径：从布局分析到结构重建

高质量的解析不再仅仅依赖 OCR，而是结合了计算机视觉（CV）与自然语言处理（NLP）：

布局分析 (Layout Analysis)：利用目标检测模型（如 YOLOv8 或 LayoutLM）识别页面上的块：标题、段落、表格、图像、页眉页脚。
公式与表格提取：
- 公式：识别为 LaTeX\LaTeXLATEX 代码，确保数学语义在 Embedding 阶段不丢失。
- 表格：利用 Table Transformer 识别单元格边界，并将其转化为 Markdown 表格。
阅读顺序重建：针对多栏、图文混排，算法会计算各块的逻辑坐标，确保提取出的文字流符合人类阅读逻辑。

1.2 为什么放弃传统 OCR/Text Loader？

多栏排版陷阱：传统工具横向读取，会导致左栏和右栏内容交替混合，语义彻底碎裂。
表格灾难：简单的文本提取将表格变成乱序字符。对于 RAG 而言，丢失行/列对应关系意味着模型无法回答"XX 年份的销售额是多少"这类问题。
语义信息丢失：标题加粗、字体大小代表的"知识层级"在纯文本提取中会完全丢失。

1.3 前沿方案：工业级工具对比

将一切非结构化文档统一转化为 Markdown 是目前的行业共识。

工具	开发方	核心优势	适用场景
Docling	IBM	极强的布局理解，支持嵌套表格与多栏混排。	企业级复杂 PDF 解析、自动化报告处理。
Marker	VikParuchuri	速度极快，对公式转换支持极佳。	大规模科研论文、书籍的预处理。
MinerU	OpenDataLab	对中文排版深度优化，支持扫描件高保真提取。	中文政企文档、各类扫描版 PDF。
GPT-4o / Claude 3.5	MLLM	"视觉转 Markdown"能力最强，支持解析复杂图表。	少量、极高难度的图文混合文档解析。

python 复制代码

# 示例：使用 Docling 进行高保真转换
from docling.document_converter import DocumentConverter

converter = DocumentConverter()
# 该方法会自动触发布局分析、表格恢复与文本提取
result = converter.convert("complex_layout_report.pdf")

# 导出为 Markdown 格式，这是目前 RAG 的金标准
markdown_text = result.document.export_to_markdown()
print(markdown_text[:500]) # 你会看到清晰的 # 标题 和 | 表格 |

2. 语义与上下文增强切分 (Advanced Chunking)

在获取了高质量的 Markdown 后，如何切分决定了检索的信噪比。

2.1 语义切分 (Semantic Chunking)

原理：利用 Embedding 模型计算相邻句子的余弦相似度。当相似度低于设定的阈值 τ\tauτ 时，代表话题发生了跳变，触发切分。
优势：保证每一个 Chunk 讨论一个完整的话题，而不是在句子中间被暴力截断。

2.2 上下文压缩增强 (Contextual Retrieval)

这是 Anthropic 提出的最新方案：在切分后的每个 Chunk 头部，自动拼接一段该块在原文中的"背景摘要"。

原始块："利润增长了 20%。"（缺乏主体）
增强块："

背景：本文是华为2023年财报背景：本文是华为 2023 年财报背景：本文是华为2023年财报

利润增长了 20%。"

2.3 延迟切分 (Late Chunking) ------ 解决"语义断裂"

由 Jina AI 提出，是目前解决检索碎片化最优雅的方案之一。

传统挑战：普通 RAG 是"先切分再向量化"。当一个句子说"它增长了 20%"时，切分后它失去了前面的主语，生成的向量语义是不完整的。
核心原理：
1. 全篇编码：先不对文本进行物理切分，而是将整个文档输入到长文本 Embedding 模型中。
2. 上下文吸收：模型在生成每个字（Token）的向量时，已经通过注意力机制吸收了前后文的信息。
3. 物理切分与池化：在向量空间中根据边界进行切分。
效果：极大地提升了短文本块的检索召回率，减少了语义丢失。

3. 向量库与嵌入的"降维打击"

在处理大规模知识库时，效率与存储成本的平衡至关重要。

3.1 俄罗斯套娃嵌入 (Matryoshka Embeddings)

核心特性 ：维度缩减而精度不崩 。模型（如 OpenAI text-embedding-3-large）将最重要信息"压"在向量的前几个维度中。
实战用法：
- 极速初筛：只取 3072 维向量中的前 256 维进行粗排。体积缩小 12 倍，速度提升一个量级。
- 完整精排：在 Top 100 结果中，调用全量维度进行精排。

3.2 向量库选型：从"点检索"到"面推理"

Qdrant (工业级首选)：原生支持混合索引与稀疏向量，实现真正的"向量+关键词"混合检索。
GraphRAG (Neo4j / Microsoft 方案)：不仅存向量，还存实体间关系。解决"请总结这个行业的所有风险点"这种需要全局归纳的问题。

4. 实战：构建基于 Markdown 的结构化 RAG

我们将演示如何利用 Markdown 标题层级进行逻辑切分，并结合 Qdrant 进行存储。

python 复制代码

from langchain_text_splitters import MarkdownHeaderTextSplitter, RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Qdrant
from langchain_openai import OpenAIEmbeddings

# 1. 结构化切分：基于 Markdown 标题层级
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_text)

# 2. 二次细切：在保持标题背景的前提下，切分为适合检索的大小
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
final_chunks = text_splitter.split_documents(md_header_splits)

# 3. 存储至高性能向量库
vector_db = Qdrant.from_documents(
    final_chunks,
    OpenAIEmbeddings(model="text-embedding-3-small"),
    location=":memory:", # 示例使用内存模式
    collection_name="advanced_rag_v2"
)

print(f"成功构建知识库，切分块数: {len(final_chunks)}")

5. 第二阶段避坑指南

开发者必读：

表格是 RAG 的杀手：必须将其转化为 Markdown 或 HTML，否则向量搜索无法命中单元格内容。

坐标丢失问题 ：如果需要"点击跳转原文"，解析时务必保留 Bbox (Bounding Box) 坐标。

多语言语义偏移 ：混合中英文档时，优先选择 BGE-M3 模型。

下一步预告：

第三阶段：高级检索 (Advanced Retrieval)。我们将学习 混合检索 (Hybrid Search) 、重排序 (Rerank) 和 多步查询变换。