OCR 识别质量如何影响 RAG 系统的性能？有何解决办法？

编者按： 当我们谈论检索增强生成（RAG）系统的性能瓶颈时，大多数人会关注模型架构、向量数据库优化或检索、生成策略，但是否有人深入思考过一个更基础却被忽视的问题：光学字符识别（OCR）的质量究竟在多大程度上制约着整个 RAG 系统的表现？

我们今天为大家带来的这篇文章，作者的观点是 OCR 的识别质量形成了一个隐形的性能天花板，从根本上限制了即使是最先进 RAG 系统的效果。

文章通过基于 OHR v2 基准测试的深度实验分析，量化了 OCR 技术对 RAG 系统检索和生成两个核心环节的具体影响。研究发现，即便是顶尖的 OCR 解决方案，与理想状况下的文本提取相比仍存在约 4.5% 的性能差距，而这种差距在处理复杂版式文档时会进一步放大。于是，本文提出了一种多模态检索解决方案，在实际测试中将检索准确率提升了 12%，并挽回了因 OCR 错误损失的 70% 生成质量。

本文系原作者观点，Baihai IDP 仅进行编译分享

作者 | Aamir Shakir, Julius Lipp, Rui Huang, Joel Dierkes, and Sean Lee

编译 | 岳扬

检索增强生成（RAG）已成为连接大语言模型与企业数据的标准范式，但该方法存在一个鲜少被讨论的致命缺陷：当前生产环境中的 RAG 系统几乎全部依赖光学字符识别（OCR）技术处理 PDF、扫描件、演示文稿等文档，并默认假设识别结果足以支撑下游 AI 任务。

我们的深度分析表明，这一假设存在根本性缺陷。OCR 的识别质量形成了一个隐形的天花板，甚至限制了最先进 RAG 系统的性能。 理想的文本提取（perfect text extraction）所能达到的效果与当前 OCR 技术所能达到的效果之间的差距，是当今企业级 AI 领域最重大却被忽视的挑战之一。

TLDR：

OCR 带来了一个隐形的性能天花板。文本提取误差极大地制约了 RAG 系统的检索精度与生成质量。
在基准测试上表现出了巨大的差距。即便是顶尖的 OCR 解决方案，较理想的文本提取的性能仍存在约 4.5% 的差距（使用 NDCG@5 指标评估），尤其是在复杂版式的文档上。
纯视觉生成方案尚未成熟。尽管多模态模型进步很快，但仍无法可靠地从多个文档图像中生成精准答案。
多模态检索（Multimodal retrieval）超越了理想的 OCR 文本提取。我们的向量数据库在检索精度（使用 NDCG@5 指标评估）上较理想的 OCR 文本提取提升性能约 12%，可挽回 70% 因 OCR 错误损失的生成质量，同时还能简化系统架构并增强未来的兼容性。

01 为何 OCR 仍是 AI 系统的关键环节

企业的内部核心知识大多封存在 PDF、扫描文档、发票、演示文稿、图像等非结构化格式中。大语言模型（LLM）要处理这些知识，必须先将可视化的或半结构化的原始格式转化为纯文本。

这一文本转换环节通常由 OCR 引擎主导，它直接影响 RAG 系统的两大核心组件：

1.1 检索系统（The Retrieval System）

大多数检索系统依赖提取的文本作为主要搜索依据。当 OCR 质量低下时，生成的文本表征会出现偏差或"失真"。这会导致文本表征存在错误，从而使检索系统在用户提问时难以或无法找到相关文档。若文本无法准确反映内容，搜索甚至还没开始就已经失败了。

1.2 生成模型（LLM）

大语言模型仅能基于给定的上下文生成答案。若检索到的文档片段存在 OCR 错误（缺词漏字、表格错位、数字失真），LLM 接收到的信息就会有缺陷。即便检索系统成功定位到了正确的文档页，最终仍会产生信息残缺、逻辑混乱或事实错误的回答。

简言之，OCR 产生的错误绝非止步于文本层面，而是会贯穿整个 RAG 流程 ------ 既影响信息检索的能力，又破坏答案生成的准确性。

02 OCR 性能测试：基准实验设计方法论

为了量化 OCR 技术的"性能天花板"并评估其对实际应用的影响，我们需要一种可靠的评测方法，以衡量其在各种具有挑战性的文档上的表现。为此，我们基于 OHR（OCR hinders RAG） v2 基准测试[1]展开了全面实验。

该基准测试专为评估 OCR 性能对 RAG 任务的影响而设计，主要包含以下核心模块：

多样化的、有挑战性的文档库：精选 8500 余页 PDF 文档，覆盖教材、法律文书、金融报表、报刊杂志、技术手册、学术论文及行政公文七大专业领域。这些文档普遍包含复杂版式、数据表格、数学公式、统计图表、技术图解及非常规阅读顺序等 OCR 系统公认的识别难点。
有针对性的问题：针对文档特性构建的 8498 组问答对，专门用于测试上述 OCR 难点信息相关的检索与理解能力。每组答案均严格对应文档中的具体页面，确保评估结果可验证、可追溯。
经过验证的问题答案：经过人工校验过的理想的文本抽取结果与精心标注的答案集，为比较、评估提供了可靠的"gold standard"。

根据这一基准测试，我们评估了一系列 OCR 和检索方法：

Gemini 2.5 Flash[2]：前沿的闭源多模态模型（具备 OCR 功能）
MinerU[3]：集成学术界先进 OCR 方法的开源工具库
Azure Document Intelligence[4]：行业主流的商业 OCR 解决方案
Qwen-2.5-VL[5]：前沿的开源多模态模型（具备 OCR 功能）
Unstructured[6]：高市占率的开源文档解析工具库
Mixedbread 多模态向量数据库[7]：基于自研多模态模型 mxbai-omni-v0.1 实现原生的多模态检索（直接处理页面图像而非依赖 OCR 文本），绕过了传统检索对 OCR 的依赖

这一完整的实验框架使我们能够隔离不同 OCR 方法质量的影响，并将传统基于文本的检索方法与我们的多模态检索系统进行直接性能对比。

03 检索环节的测试方法与实验结果

我们首先聚焦检索环节 ------ 即在海量文档中精准定位目标信息的能力。若 RAG 系统无法精准定位相关文档，大语言模型就没有机会准确回答问题。

3.1 检索环节的实验设计

我们将 OHR 基准测试的问答对（question-answer pairs）转化为检索任务：将提问作为查询指令（query），相关的证据页面（evidence pages）则是要检索的目标文档。

传统的基于文本的 OCR 方法采用 BM25 算法[8]（这是一种基于关键词权重的经典检索算法，广泛用于搜索引擎）。（我们也尝试了基于嵌入向量的检索与重排序方案，但发现 OCR 噪声会污染语义嵌入的质量，导致其性能反而不如 BM25 的基准方案，详细分析参见此技术文档[9]。）

Mixedbread 多模态向量数据库调用自研的 mxbai-omni-v0.1 多模态嵌入模型，直接处理文档页面截图。这种方法能够感知页面布局、结构特征与可视化元素，本质上具备抵御 OCR 错误干扰的能力。

我们使用两项标准指标来衡量检索性能：

NDCG@5（Normalized Discounted Cumulative Gain @ 5） ：评估前 5 位检索结果的质量，既考察正确的文档是否被检出，还关注这些文档的排名高低 ------ 排名越靠前的相关文档得分越高。选定 K=5 的依据在于：研究表明大语言模型对上下文窗口中的文档顺序极为敏感，排名靠前的文档对其决策影响更大。
Recall@5 ：这个指标衡量的是前 5 个结果中是否至少检索到了一个正确的证据页面（evidence pages）。该指标反映系统能否检索到必要的信息，而不管其具体排名如何。

3.2 对检索环节的评估结果显示：OCR 的性能天花板确实存在

我们对检索环节的基准测试清晰地展现了传统依赖 OCR 的方法与多模态方案之间的显著差异。

NDCG@5 指标表现（在七大文档领域上的平均值）

本图表展示各检索方法在七大文档领域的平均 NDCG@5 得分。该指标同时考量前 5 位检索结果中相关文档的存在情况及排序质量 ------ 数值越高代表检索越准确，其中排名靠前的相关页面的权重也越高。

Recall@5 指标表现（在七大文档领域上的平均值）

本图表显示了各方法在七大文档领域测试中的平均 Recall@5 值。该指标反映了前 5 位检索结果中出现至少一个正确的证据页面的提问占比 ------ 数值越高代表系统性能越佳。

这些实验结果揭示了几个重要的观点：

OCR 形成了"性能天花板"：所有被测 OCR 方案均落后于基准值。 最优 OCR 方案的 NDCG@5 指标平均值仅为 0.74，与基准值 0.773 存在 4.5% 的绝对差距，这证实了 OCR 误差从本质上限制了检索效率。
文档的复杂度放大了 OCR 方案存在的问题：在 finance、textbooks、news 等布局复杂的文档领域，性能差距进一步扩大。表格、数学公式、多栏文本等元素大大加剧 OCR 的识别难度。
多模态系统通过视觉-文本联合理解实现性能突破：Mixedbread Vector Store 的性能始终优于其他传统方案，它的 NDCG@5 平均值为 0.865（较基准方法提升了近 12%），因为它能通过直接解析页面图像中的版式结构、表格图表等视觉信息，获取更丰富的语义关联线索。

在基准文本上，使用 Mixedbread Vector Store，Recall@5 指标从基准方法的 0.84 跃升至 0.92，具体表现为：

基准方法（perfect OCR）：Recall@5=84% → 每 100 份相关文档中，有 84 份被检索到，且排在前 5 位。
多模态方案（Mixedbread Vector Store）：Recall@5=92% → 每 100 份相关文档中，有 92 份进入了前 5 名。

该指标实现了 8% 的绝对提升（相对提升达 9.5%），这意味着检索性能的大幅提高。本组基准测试量化了单纯依赖 OCR 技术所带来的性能瓶颈。虽然更好的 OCR 有所帮助，但多模态路径才是实现检索能力飞跃的根本方向。

04 生成环节的测试方法与实验结果

现在好了，多模态检索能够找到更优的文档，从而突破了 OCR 的性能上限。但这种检索效果的提升，是否真能让大模型给出更准确的最终答案呢？为了找出答案，我们测试了端到端的 RAG 的性能。

4.1 生成环节的试验设置

我们设置了三种场景，将每种场景检索到的前 5 篇文档输入同一个强大的 LLM（gemini-2.5-flash-preview-04-17）进行答案生成：

1）Perfect OCR & Perfect Retrieval (Ground Truth) ：使用经过人工验证的文本进行生成，并将真实的证据页面（evidence pages）作为输入（也就是所谓的"Perfect Retrieval"）。这代表了在拥有正确上下文和理想的文本提取能力的情况下，当前模型可达到的理论最高性能。

2）Perfect OCR & Retrieval：在 BM25 检索、Top 5 文本片段选取及生成阶段均采用经过人工校验的文本。这代表了在 OCR 处于理想情况下，系统所能提供的理想质量。

3）Mixedbread OCR（基于文本的 RAG） ：在 BM25 检索（获取前 5 个文本片段）和生成上下文环节中，均采用我们高质量 OCR 引擎提取的文本。这就模拟了一个标准的、高质量的纯文本 RAG 流程。

4）Mixedbread Vector Store（多模态检索） ：使用我们的多模态模型检索前 5 页的图像，但随后使用 Mixedbread OCR 提取的对应干净文本作为生成上下文。这种做法既保留了视觉检索的优势，又能确保生成环节的输入模态（文本）保持一致。

为评估效果，我们主要关注"正确答案率"指标。具体做法是：以 GPT-4.1 作为中立裁判，向其提供原始问题、标准答案、标准证据文本，以及 gemini-2.5-flash-preview-04-17 在各测试场景下生成的答案。最终得分按"正确回答数除以总问题数"的简单公式计算。

4.2 对生成环节的评估结果显示：检索质量提升 = 答案准确率提高

对生成环节的测试验证了我们的假设：更优质的检索能直接带来更准确的答案。

正确答案率

本图表展示了每种生成方法的正确答案占比（基于7个领域的平均值，由 GPT-4.1 评判）。数值越高，表明大模型生成的答案越准确，越接近正确答案（ground-truth）。

这些实验结果揭示了几个重要的观点：

OCR 的缺陷在生成阶段被放大：与使用 perfect text（0.913 的基准值）相比，依靠标准 OCR 技术进行检索和生成会导致正确答案减少 25.8%（0.677）。错误的输入上下文大大降低了 LLM 生成准确答案的能力。
优质的检索能够大幅提升准确率：仅将标准的使用 OCR 技术的检索过程替换为使用 Mixedbread 向量数据库的多模态检索（生成环节仍使用相同的存在潜在缺陷的 OCR 文本），平均正确答案率即从 0.677 跃升至 0.843。仅此一项改进，就挽回了标准 OCR 流程 70% 的准确率损失。
找到正确的文档页面至关重要：在生成过程中，检索质量往往比所提取文本的完美程度更关键。 即便存在轻微的 OCR 提取缺陷，让大模型获取到正确文档的收益，远高于提供错误文档中稍干净的文本。

这些生成环节的测试证明，最先进的多模态检索技术能有效抵消 OCR 过程中产生的错误对下游任务的大部分负面影响。

05 Direct Image Generation：仅依赖视觉的 RAG 系统是否可行？

视觉信息在检索阶段的成功引发了一个关键问题：能否在生成阶段完全跳过 OCR？若将检索到的页面图像直接输入 Gemini 2.5 Flash 等多模态大语言模型，并让其通过"阅读"图像生成答案，效果会如何？我们测试了这种"端到端图像理解"的方案：

正确答案率（在三大文档领域上的平均值）

这些实验结果揭示了三个重要的观点：

纯图像输入方案的表现欠佳：直接向大语言模型输入页面图像进行生成时，平均正确率最低（0.627）
Visual Retrieval vs. Visual Generation：多模态模型擅长利用视觉线索进行检索，但在生成环节直接从多个文档图像中提取细节信息的能力，仍显著弱于处理预处理文本
高质量的 OCR 文本仍然是生成环节的最佳选择（现阶段）：目前，向 LLM 提供干净、清晰的文本可以得到最准确的答案。

结论：虽然仅依赖视觉的 RAG 系统充满想象空间，但现阶段通过多模态检索获取文档，再结合高质量的 OCR 文本进行生成，仍是综合性能最优的解决方案。

06 典型案例：标准 OCR 的失效场景

为使 OCR 技术局限性的影响具象化，我们将基于基准数据剖析几个典型场景。这些案例既揭示了基于 OCR 的传统系统的常见失效场景，也论证了多模态检索方法如何实现更精准的文档解析。

6.1 案例1：Regulatory Filings 中手写数据的挑战

场景特征：以电信公司提交的 PUCO 年度报告为例，此类 Regulatory filings（译者注：企业/机构依法向监管部门提交的标准化文件）通常将结构化的打印内容与关键的手写财务数据混合排版在一起。这种混合内容对传统 OCR 系统构成了严峻的挑战 ------ 手写内容常被错误识别，可能导致合规风险与数据分析结果偏离。

典型的 OCR 输出及其局限性

当采用标准的 OCR 引擎处理此类文件时，关键的手写财务数据往往会完全丢失或被错误解析：

对 RAG 系统的影响：当用户提出类似"TSC Communications 的总营收是多少？"的查询（query）时，依赖此类有缺陷的 OCR 输出的 RAG 系统可能返回："无法从当前文档获取营收数据"。这种情况将迫使人工介入审核，严重延误监管报送与决策分析。

多模态解决方案：相比之下，多模态系统通过分析文档的视觉布局与笔迹特征，可同步解析结构化表格与手写财务数据。这种全局理解能力使其能够准确识别出总营收为 2,775,060 美元（其中运营收入 2,325,472 美元，其他收入 449,588 美元），从而生成关于公司财务状况及监管义务的精准自动化响应。

6.2 案例 2：如何从金融图表中提取趋势信息

情景概述：在季度投资分析报告中，常运用堆叠面积图等可视化工具呈现资产配置变化。传统 OCR 技术在此场景下仅能识别表层文本信息（如标题、图例标注），却无法捕捉承载核心趋势的可视化数据。

传统 OCR 技术的输出及其局限性

标准 OCR 工具可能只会提取标签和标题，而忽略了核心数据：

Portfolio Allocation Trends (Q1 2023 - Q4 2024)

Percentage (%)

100

75

50

25

0

Q1 2023, Q2 2023, Q3 2023, Q4 2023, Q1 2024, Q2 2024, Q3 2024, Q4 2024

Cash, Commodities,Real Estate,Fixed Income, Equities

对 RAG 系统的影响：当客户咨询"我的权益类资产占比过去一年如何变化？"时，基于传统 OCR 输出的 RAG 系统只能提供有关投资组合组成部分的一般信息，完全无法解读图表中揭示的关键趋势 ------ 例如权益类资产配置有 13 个百分点的增幅，而这正是评估投资风险的核心依据。

多模态解决方案：多模态系统通过直接对图表进行直观分析，既能识别每个时间点的配置比例，也能识别整体趋势模式。这样，它就能准确地做出反应："您的权益类资产配置在过去的一年内从 45% 攀升至 58%，这是您的投资组合构成中最大的变化。" 系统甚至可以提取特定季度的数据来补充说明这一情况。

6.3 示例 3：复杂财务报表的精准解析

情景描述：财务报表中常包含多栏表格，详细列出收入明细与运营开支。使用 OCR 对此类复杂表格结构进行识别，其难点在于保持行与列的正确对齐 ------ 当表格识别出现对齐错误时，会导致财务数据被错误归类（例如将"研发支出"的数值误关联到"市场营销"下）

传统 OCR 技术的输出及其局限性

即便文字内容被提取，OCR 的细微对齐错误或解析错误仍会破坏表格结构：

对 RAG 系统的影响：当财务分析师询问"2025 年研发支出占收入的比例相较 2024 年有何变化？"时，基于 OCR 识别出的错误表格结构数据的 RAG 系统可能曲解数据之间的关系，产生诸如"2025 年研发占比 49%，而 2024 年高达 8,675%"的荒谬回答。这类错误源于系统无法正确理解表格的视觉结构与语义逻辑。

多模态解决方案：通过分析表格的视觉结构，系统能准确识别标题、金额与百分比数字之间的复杂对应关系。这样就能做出准确的答复："尽管研发支出绝对值增长了 49%，但其占净收入的比例从 2024 年的 14.2% 下降至 2025 年的 9.9%。"系统可以同时把握财务数据的空间布局与语义关联。

07 Mixedbread Vector Store 所使用技术方案的核心功能与实施价值

该向量数据库专为解决 OCR 依赖型 RAG 系统的固有缺陷而设计，其核心架构基于 mxbai-omni-v0.1 多模态模型实现跨模态信息检索。该模型可直接分析文档页面截图、视频等原始视觉内容并生成嵌入向量，从而在其原始上下文中理解布局、结构、表格和图表。基准测试表明，相较理想的文本提取方案（perfect text extraction），该方案将检索准确率（NDCG@5）提升约 12 个百分点。

系统在进行视觉分析的同时，通过 OCR 引擎并行处理文本内容。提取的文本数据将与视觉嵌入向量同步存储，形成双模态协同优势：

增强检索能力：当纯文本检索因 OCR 错误或特殊内容（如图表、复杂表格）失效时，视觉分析能精准定位相关文档
优化生成上下文：保留高质量 OCR 文本，适配当前以文本输入为主的大语言模型生成需求
自动化文档处理：系统自动完成视觉嵌入与文本提取，用户无需干预数据预处理流程
对未来 LLM 的适配：同步存储视觉表征与文本数据，为未来多模态 LLM 直接利用图像信息生成内容做好技术储备

这种一体化设计方案能够大大提升 RAG 系统的综合性能：基准测试显示这种技术路线不仅能够实现检索效率的大幅提升，更在统一框架内挽回传统流程因 OCR 问题损失的 70% 生成准确率。

08 结论：利用多模态检索突破 OCR 的性能瓶颈

基准测试数据表明，光学字符识别（OCR）的质量是制约 RAG 系统性能的核心瓶颈，尤其是在处理复杂的现实世界文档时。文本提取过程中的错误与遗漏不仅会限制准确检索相关信息的能力，更会直接影响大语言模型生成最终答案的质量。

将多模态分析纳入检索流程的策略（如 Mixedbread Vector Store 技术方案）可解决其中的部分限制。通过直接解析页面图像的视觉语义，这种方法在测试中相较理想的文本提取基准方法提升 12% 检索准确率（NDCG@5）。检索性能的提升，使传统流程因 OCR 错误损失的 70% 的生成准确率得以恢复。

虽然现阶段大语言模型在答案生成环节仍依赖高质量文本输入，但多模态系统展现的强大检索能力为文档理解开辟了一条较为有效的技术路径。同时集成视觉驱动检索与高质量 OCR 文本的 RAG 系统，不仅为当前实际应用需求提供了有效的解决方案，更为未来大语言模型直接利用图像数据进行生成任务奠定了基础。

本研究证实：在处理多样化、结构复杂的文档场景时，将多模态理解能力融入检索流程是提升 RAG 系统准确性与可靠性的关键考虑因素。

END

本期互动内容 🍻

❓文章认为 OCR 是 RAG 系统的"隐形性能天花板"，但你觉得还有哪些被低估的性能瓶颈？

文中链接

1\][arxiv.org/abs/2412.02...](https://link.juejin.cn?target=https%3A%2F%2Farxiv.org%2Fabs%2F2412.02592 "https://arxiv.org/abs/2412.02592") \[2\][ai.google.dev/gemini-api/...](https://link.juejin.cn?target=https%3A%2F%2Fai.google.dev%2Fgemini-api%2Fdocs%2Fmodels "https://ai.google.dev/gemini-api/docs/models") \[3\][github.com/opendatalab...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2Fopendatalab%2FMinerU "https://github.com/opendatalab/MinerU") \[4\][learn.microsoft.com/en-us/azure...](https://link.juejin.cn?target=https%3A%2F%2Flearn.microsoft.com%2Fen-us%2Fazure%2Fai-services%2Fdocument-intelligence%2Foverview%3Fview%3Ddoc-intel-4.0.0 "https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/overview?view=doc-intel-4.0.0") \[5\][github.com/QwenLM/Qwen...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2FQwenLM%2FQwen-VL "https://github.com/QwenLM/Qwen-VL") \[6\][github.com/Unstructure...](https://link.juejin.cn?target=https%3A%2F%2Fgithub.com%2FUnstructured-IO%2Funstructured "https://github.com/Unstructured-IO/unstructured") \[7\][www.mixedbread.com/docs/vector...](https://link.juejin.cn?target=https%3A%2F%2Fwww.mixedbread.com%2Fdocs%2Fvector-store "https://www.mixedbread.com/docs/vector-store") \[8\][en.wikipedia.org/wiki/Okapi_...](https://link.juejin.cn?target=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FOkapi_BM25 "https://en.wikipedia.org/wiki/Okapi_BM25") \[9\][docs.google.com/spreadsheet...](https://link.juejin.cn?target=https%3A%2F%2Fdocs.google.com%2Fspreadsheets%2Fd%2F1zBGOIOCzZZjw1HXBGGI8BzNx_kYj34LlYaFteZTU7Bg%2Fedit%3Fusp%3Dsharing "https://docs.google.com/spreadsheets/d/1zBGOIOCzZZjw1HXBGGI8BzNx_kYj34LlYaFteZTU7Bg/edit?usp=sharing") **本文经原作者授权，由 Baihai IDP 编译。如需转载译文，请联系获取授权。** **原文链接：** [www.mixedbread.com/blog/the-hi...](https://link.juejin.cn?target=https%3A%2F%2Fwww.mixedbread.com%2Fblog%2Fthe-hidden-ceiling "https://www.mixedbread.com/blog/the-hidden-ceiling")