AI——多模态 / 复杂文档 RAG

多模态 / 复杂文档RAG

- [一、什么是多模态 / 复杂文档RAG](#一、什么是多模态 / 复杂文档RAG)
- - 1）传统RAG的痛点
  - 2）多模态+复杂文档RAG定义
- 二、核心挑战（为什么难）
- 三、整体架构（工业级标准流程）
- 四、关键优化技术（直接提升效果30%+）
- - 1）HyDE（假设文档嵌入，模糊查询神器）
  - [2）分层检索（Hierarchical Index，长文档必备）](#2）分层检索（Hierarchical Index，长文档必备）)
  - [3）图文联合检索（Graph RAG进阶）](#3）图文联合检索（Graph RAG进阶）)
  - [4）动态分块（Dynamic Chunking）](#4）动态分块（Dynamic Chunking）)
- 五、工业级参数模板
- 六、避坑清单（企业最容易踩的12条）
- 七、总结

一、什么是多模态 / 复杂文档RAG

1）传统RAG的痛点

只能处理纯文本
对PDF扫描件、图表、表格、公式、版式依赖强的文档完全无力
长文档容易语义断裂、乱召回、幻觉严重

2）多模态+复杂文档RAG定义

多模态RAG（MM-RAG） ：同时处理文本、图片、表格、公式、图表、扫描页，在统一向量空间做跨模态检索与推理。

复杂文档RAG ：针对长文档（百页级）、多层级结构、跨页关联、密集表格/图表做专门优化，解决"找不到、找不全、答不准"。

典型场景：

金融财报（大表+折线图+文字说明）
法律合同（复杂版式+扫描页+附件）
医疗报告（影像+结构化指标+文本结论）
技术手册（原理图+参数表+步骤说明）

二、核心挑战（为什么难）

模态异构：文本、图像、表格数据格式完全不同，难以统一表示。
空间布局敏感：PDF里"图注在图下方、表格跨页、标题层级"直接影响语义。
长距离依赖 ：答案可能跨十几页、多个章节、图文组合。
噪声多：页眉页脚、水印、空白、扫描噪点严重干扰检索。
推理复杂 ：需要图表数值计算、跨表对比、图文联合推理。

三、整体架构（工业级标准流程）

分四大阶段：文档解析 → 多模态分块/向量化 → 跨模态检索 → 多模态生成+校验。

阶段1：复杂文档解析（最关键，决定上限）

目标：把PDF/Word/扫描件拆成干净的结构化元素：文本块、表格、图片、公式、标题层级。

工业级方案：

版面分析模型：YOLO/LayoutLM类，识别页眉、页脚、正文、表格、图片、公式区域。
OCR（扫描件必备） ：PaddleOCR、Tesseract，带版面复原（防止文字乱序）。
表格结构化 ：Camelot、Tabula、MinerU，直接输出可编辑JSON/CSV。
图表理解 ：用VLM（如GPT-4V、LLaVA）把折线图/柱状图转成文本描述+关键数值。
清洗：去页眉页脚、水印、空行、重复段落、乱码。

输出示例：

json 复制代码

{
  "page": 12,
  "type": "table",
  "content": "2025营收：120亿；2024：100亿",
  "caption": "图3：年度营收对比",
  "embedding": [0.12, 0.34, ...]
}

阶段2：多模态分块与向量化（区别于普通RAG）

（1）分块策略（绝对不能硬切）

语义分块为主 ：按标题层级、段落边界、图表单元切分。
块大小 ：
- 文本：512--800 token
- 表格：单表1块（防止字段割裂）
- 图片：单图+图注1块
重叠度：15%--20%（跨块信息不丢）。
层级索引（核心！） ：
- 高层块：文档摘要、章节摘要（全局语义）
- 中层块：段落、表格、图片（局部语义）
- 低层块：句子、关键术语（精确匹配）。

（2）多模态嵌入（统一向量空间）

目标：让"文字描述"和"对应图片/表格"向量距离更近。

常用模型：

文本+图像：CLIP、BGE-VL、ColPali（直接用图片嵌入替代OCR，保留视觉结构）。
中文优化：BGE-large-zh、m3e、Qwen-VL。
表格：TableBERT、TAPAS（结构化嵌入）。

关键技巧：

图片不直接存原图，存VLM生成的文本描述+图像向量（节省存储、提升检索速度）。
表格同时生成文本化描述向量 + 结构化向量（双保险）。

阶段3：跨模态检索（核心优化点）

采用三级检索架构（必上，效果提升最明显）：

1）粗排：混合检索（多路召回）

向量检索（Dense）：语义匹配，召回Top50。
BM25（Sparse）：关键词/专业术语精确匹配，召回Top50。
模态路由 ：
- 问题含"图/表/曲线"→优先检索图片/表格块
- 纯文字问题→优先文本块。

融合：RRF（倒数排序融合），输出Top30。

2）重排：跨模态Reranker（必上）

模型：BGE-Reranker-M3、Cross-Encoder。
作用：对粗排Top30做细粒度相关性打分，过滤噪声，保留Top8。
多模态适配：输入"问题+文本块/图片描述/表格内容"，输出相关性分数。

3）压缩：上下文精炼（长文档必备）

工具：LongLLMLingua、LLM-based压缩。
目标：把Top8块压缩到4--6块、≤3000 token ，同时保留所有关键数据/数值/结论。
原则：不删事实、只删废话（铺垫、重复、过渡句）。

阶段4：多模态生成+幻觉校验（最后一道防线）

（1）生成配置（强约束控幻觉）

复制代码

temperature=0.1~0.3
top_p=0.4~0.5
max_tokens=动态适配上下文
frequency_penalty=0

（2）强制溯源Prompt

复制代码

你只能严格依据给定上下文（文本、表格、图片描述）回答。
1. 禁止编造、推断、补充外部知识；
2. 答案必须标注来源：文档名+页码+块类型（文本/表/图）；
3. 涉及数值必须精确引用原文，禁止估算；
4. 无相关信息时直接回复"暂无相关信息"。

（3）多模态生成（图文并茂）

用VLM（GPT-4V、LLaVA、Qwen-VL）同时理解文本+图片+表格。
输出可包含：文字结论 + 关键表格片段 + 图片引用。

（4）自检（Self-Check）

逐句校验：每句话是否都能在检索块中找到对应证据。
冲突检测：发现矛盾内容（如同一指标两个数值）→标注并提醒用户。

四、关键优化技术（直接提升效果30%+）

1）HyDE（假设文档嵌入，模糊查询神器）

原理：用LLM生成一段理想答案（假设文档），再用这段答案做向量检索。
解决：用户短问句、口语化、抽象概念查询（如"公司业绩如何"）。
示例：
- 用户问："2025年营收增长原因？"
- HyDE生成："2025年营收增长主要得益于A业务扩张、B产品提价、C市场份额提升，具体数据见财报表3。"
- 用这段生成文本去检索，召回更准。

2）分层检索（Hierarchical Index，长文档必备）

先查高层摘要块 →定位相关章节→再查中层细节块 →最后查低层精确块。
效果：长文档（100页+）召回率提升25%，速度提升40%。

3）图文联合检索（Graph RAG进阶）

构建多模态知识图谱：实体（产品、指标、人员）+关系（属于、增长、关联）+属性（数值、时间、来源）。
支持多跳推理：如"2025营收→同比增长→驱动因素→对应产品→市场份额"。
适合：金融、医疗、政务、工业设备等强关联场景。

4）动态分块（Dynamic Chunking）

按文档复杂度自动调整块大小 ：
- 简单文本：800 token
- 密集表格：400 token
- 复杂图文混合：500 token。
避免：简单文档过碎、复杂文档过大。

五、工业级参数模板

1）分块

文本块：600 token，重叠15%
表格块：单表1块，不拆分
图片块：单图+图注1块
层级：高层（摘要）、中层（段落/表/图）、低层（句子）

2）嵌入

文本：BGE-large-zh（768维）
图像：BGE-VL/ColPali（768维）
表格：TableBERT（768维）

3）检索

粗排：向量（50）+ BM25（50）→RRF→30
重排：BGE-Reranker-M3→Top8
压缩：LongLLMLingua→4--6块，≤3000 token

4）生成

temperature=0.2，top_p=0.5
强制溯源Prompt
自检：逐句证据校验

六、避坑清单（企业最容易踩的12条）

❌ 不要硬切分块→撕裂语义，准确率降15%+。
❌ 不要只用向量检索→专业术语漏召回，必须加BM25。
❌ 不要忽略版面分析→PDF乱序、表格拆分，信息丢失。
❌ 不要直接用原图嵌入→存储大、检索慢，用VLM描述+向量。
❌ 不要召回太多块→噪声多、成本高、幻觉上升，控制在8块内。
❌ 不要不做上下文压缩→长文档超出窗口、关键信息被截断。
❌ 不要temperature过高→生成自由度过大，幻觉率飙升。
❌ 不要省略溯源约束→模型默认爱编造，必须强制标注来源。
❌ 不要盲目上知识图谱→简单场景浪费资源，复杂关联场景再用。
❌ 不要不做自检→生成答案可能存在事实错误，必须逐句校验。
❌ 不要用普通OCR处理扫描PDF→文字乱序、表格错位，必须用带版面复原的OCR。
❌ 不要不做评估→凭感觉优化永远做不好，必须用RAGAS+人工评测。

七、总结

文档解析（版面分析+OCR+表格结构化+清洗）→ 多模态分块（语义+层级）→ 统一向量嵌入（文本+图像+表格）→ 混合检索（向量+BM25）→ 重排 → 上下文压缩 → 多模态生成（强约束+溯源）→ 自检 → 评估