
2025 年 10 月 17 日,百度正式发布最新 OCR 产品 ------PaddleOCR-VL 0.9B。这款定位 "业界领先、可直接部署" 的 OCR 与文档智能引擎,宣称可提供从文本识别到文档理解的全流程解决方案,其实际表现究竟如何?本文将通过多场景测试一探究竟。
一、产品背景与核心能力
作为国内最早布局大模型的企业之一,百度在 OCR 领域起步早且积累深厚,曾是其核心技术名片。尽管百度在通用大模型赛道多次被同行压制,但在 OCR 这一传统优势领域,近期推出的 PaddleOCR 3.0 完成了传统 OCR 技术的架构级升级,不仅融入多模态大模型能力,还与文心大模型 4.5 实现深度协同。
回溯过往,百度 OCR 曾是其妥妥的技术名片。开源端,PaddleOCR 凭借超轻量级架构与高精度表现,在 GitHub 收获超 5 万星标,成为 Umi-OCR、RAGFlow 等知名项目的核心依赖,堪称开发者心中的 "首选工具";商业端,其高性价比的 API 服务与行业定制方案,广泛覆盖金融、物流、医疗等场景。
本次发布的 PaddleOCR 3.0,核心能力聚焦四大模块:
-
PaddleOCR-VL - 通过 0.9B 超紧凑视觉语言模型增强多语种文档解析
面向文档解析的 SOTA 且资源高效的模型, 支持 109 种语言,在复杂元素(如文本、表格、公式和图表)识别方面表现出色,同时资源消耗极低。
-
PP-OCRv5 --- 全场景文字识别
单模型支持五种文字类型(简中、繁中、英文、日文及拼音),精度提升13个百分点。解决多语言混合文档的识别难题。
-
PP-StructureV3 --- 复杂文档解析
将复杂PDF和文档图像智能转换为保留原始结构的Markdown文件和JSON文件,在公开评测中领先众多商业方案。完美保持文档版式和层次结构。
-
PP-ChatOCRv4 --- 智能信息抽取
原生集成ERNIE 4.5,从海量文档中精准提取关键信息,精度较上一代提升15个百分点。让文档"听懂"您的问题并给出准确答案。
二、对比测试:聚焦复杂表格识别
本次测试以 PaddleOCR 3.0 与 行业知名工具 MinerU 为对比对象。传统文本类 OCR 技术已趋成熟,因此测试重点聚焦 "复杂表格识别"------ 这是实际业务中高频出现且难度较高的场景(如合并单元格、单元格换行、拍照形变、灯光阴影、图像模糊等)。
为便于阅读,下文将用 红色字体 标注模型识别 错误 的内容。
测试一:扫描表格(含轻微形变)
测试条件:扫描生成的表格图像,无阴影、清晰度尚可,但存在轻微形变。

PaddleOCR表现
|-------|-----|-----|------|------|---------|----------|------------|----------|----|
| 物质 品名 | Y 值 | G 值 | 挥发 份 | 卡数 | 重量(吨) | 单价(元/ 吨) | 质物总金额 | 货物 是否 在库 | 备注 |
| 原煤 | | | | 4964 | 159.56 | 1175 | 187483 | | |
| 原煤 | | | | 4964 | 527.58 | 1170 | 617268.6 | | |
| 原煤 | | | | 4964 | 445.44 | 1123 | 500229.12 | | |
| | | | | | | | | | |
| | | | | | | | | | |
| | | | | | | | | | |
| 合计 | | | | | 1132.58 | | 1304980.72 | | |
MinerU表现
物质品名 | Y值 | G值 | 挥发份 | 卡数 | 重量(吨) | 单价(元/吨) | 质物总金额 | 货物是否在库 | 备注 |
---|---|---|---|---|---|---|---|---|---|
原煤 | 4964 | 159.56 | 1175 | 187483 | |||||
原煤 | 4964 | 527.58 | 1170 | 617268.6 | |||||
原煤 | 4964 | 445.44 | 1123 | 500229.12 | |||||
合计 | 1132.58 | 1304980.72 |
测试结论 :两个模型识别准确度均达 100%。因测试场景较简单,两者未拉开差距,暂以 1:1 战平。
测试二:竖向表格(含合并单元格 + 轻微形变)
测试条件:表格清晰度良好,存在轻微形变,且为竖向排版 + 合并单元格。

PaddleOCR表现
|----|----------------|-----------|-------|------------------------------------------------------------------------------------------------------------------------------------------|--------|------------------------|----------|-------------------------------------------------------------------------|
| 序号 | 名称 | 所有权或使用权归属 | 数量(台) | 机台编号 | 型号 | 质量、状况、所在地(见车间设备布置图)等情况 | 抵押价值(万元) | 作为抵押物签字 |
| 1 | 导线机 | 柏仕威 | 11 | LD-005, PW-LD-006, PW-LD-008, LD-001, PW-LD-004, LD-001, LD-009, LD-012, PW-LD-014, LD-010, SP-001 | | 质量完好,在公司车间一内,可以运转。 | 4.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 3 | 柱脚机 | 柏仕威 | 15 | PT-031, PW-PT-006, PW-PT-005, PW-PT-004, PT-003, PW-PT-002, PW-PT-001, PW-PT-008, PT-007, PT-028, PT-027, PT-018, PT-017, PT-010, PT-009 | | 质量完好,在公司车间二内,可以运转。 | 6.0 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 4 | 夹脚机 | 柏仕威 | 1 | CP-002 | | 质量完好,在公司车间二内,可以运转。 | 1.6 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 5 | 铜帽冲压机(开式可倾压力机) | 柏仕威 | 4 | CP-041~CP-044 | J23-10 | 质量完好,在公司车间二内,可以运转。 | 12.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 合计 || | 31 | | | | 12.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
MinerU表现
|----|----------------|-----------|-------|------------------------------------------------------------------------------------------------------------------------------------------|--------|------------------------|----------|-------------------------------------------------------------------------|
| 序号 | 名称 | 所有权或使用权归属 | 数量(台) | 机台编号 | 型号 | 质量、状况、所在地(见车间设备布置图)等情况 | 抵押价值(万元) | 作为抵押物签字 |
| 1 | 导线机 | 柏仕威 | 11 | LD-005, PW-LD-006,PW-LD-008, LD-001,PW-LD-004 LD-001, LD-009, LD-012, PW-LD-014, LD-010, SP-001 | | 质量完好,在公司车间一内,可以运转。 | 4.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 3 | 柱脚机 | 柏仕威 | 15 | PT-031, PW-PT-006, PW-PT-005, PW-PT-004, PT-003, PW-PT-002, PW-PT-001, PW-PT-008, PT-007, PT-028, PT-027, PT-018, PT-017, PT-010, PT-009 | | 质量完好,在公司车间一内,可以运转。 | 6.0 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 4 | 夹脚机 | 柏仕威 | 1 | CP-002 | | 质量完好,在公司车间一内,可以运转。 | 0.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 5 | 铜帽冲压机(开式可倾压力机) | 柏仕威 | 4 | CP-041~CP-044 | J23-10 | 质量完好,在公司车间二内,可以运转。 | 1.6 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
| 合计 || | 31 | | | | 12.4 | 柏仕威法人同意:因这些设备购置时间很长了,设备发票或报关单已遗失,此表中31台设备作为抵押物,每台设备的抵押价值0.4万元。柏仕威法人(签字) |
测试结论 :MinerU 识别效果更优。PaddleOCR 存在三处关键错误:"质量状况" 列描述错乱、"夹脚机" 与 "铜帽冲压机" 抵押价值识别错误,未识别到 "柏仕威法人 (签字)";MinerU 仅有几台编号的标点错误,无实质信息偏差。此轮 MinerU 胜出,战况更新为1:2(PaddleOCR 落后)。
测试三:清晰表格(含手写体)
测试条件:表格主体清晰,但包含手写金额(手写体为 OCR 核心难点之一)。

PaddleOCR表现
|------|----|----|----|--------|------------|---------|
| 产品名称 | 规格 | 单位 | 数量 | 单价(含税) | 金额 | 提(交)货时间 |
| 药品一批 | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| 合计 | | | | | ¥4200.0000 | |
| 总计金额(大写)捌仟贰佰万元正 |||||||
MinerU表现
|------|----|----|----|--------|----|---------|
| 产品名称 | 规格 | 单位 | 数量 | 单价(含税) | 金额 | 提(交)货时间 |
| 药品一批 | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| 合计 | | | | ¥4200.0000 || |
| 总计金额(大写)贰仟贰佰万元正 |||||||
测试结论 :两者均存在手写体识别误差。金额部分均误识别为 "¥4200.0000"(实际为 4200 万元,但是这部分感觉书写有问题,属视觉干扰导致);大写金额部分,PaddleOCR 误将 "肆" 写为 "捌",MinerU 误将 "肆" 识别为 "贰" 但多保留 "正" 字,无本质差距。此轮打平 ,战况更新为2:3(PaddleOCR 落后)。
测试四:模糊表格(含内容压边线)
测试条件:表格内容模糊,且部分文字压在表格线上(易导致字段错位)。

PaddleOCR表现
|----|----|----|--------------|---------------|------|-----------------------|
| 名称 | 单位 | 数量 | 单据号码 | 金额 | 保管期限 | 保管起讫日期 |
| 存单 | 份 | 1 | 01-010392200 | ¥4,350,000.00 | | 2021/07/27-2024/01/27 |
| | | | | | | |
| | | | | | | |
| 保管金额合计(大写) || 人民币肆佰叁拾伍万元整 |||||
MinerU表现
|----|---|---|----|--------------|---------------|------|-------------------|
| 名称 | 单位 || 数量 | 单据号码 | 金额 | 保管期限 | 保管起讫日期 |
| 存单 | 份 || 1 | 01-010392200 | ¥4,350,000.00 | | 20210727-20240127 |
| | || | | | | |
| | || | | | | |
| 人民币肆佰叁拾伍万元整 ||||||||
| 保管金额合计(大写) || 人民币肆佰叁拾伍万元整 ||||||
测试结论 :两者核心信息识别均正确,但 PaddleOCR 表现更优。MinerU 多生成一行重复的 "大写金额" 内容,且保管日期格式未带分隔符;PaddleOCR 无冗余内容,格式更规范。此轮 PaddleOCR 胜出,战况更新为4:4(战平)。
测试五:复杂场景(合并单元格 + 形变 + 模糊)
测试条件:综合难度最高的场景 ------ 含合并单元格、表格形变、图像模糊,接近真实业务中 "难识别" 的极限情况(人工识别亦存在难度)。因表格数据量大,仅对比表头、第一行数据及关键信息。

PaddleOCR表现
|----|----|-------|---------|------|----|------|---------|--------|----|---------|---------|------|--------------|------------|--------------------|--------------|---------------------|------|----|---|---|
| 序号 | 期数 | 日期 | 车号 | 货主姓名 | 质量 || 重量 ||||| 金额 || 货货客户信息 |||| 存放库位 | 备注 |
| 序号 | 期数 | 日期 | 车号 | 货主姓名 | 品种 | 卡数 | 毛重 | 皮重 | 扣重 | 净重 | 净重(折精提) | 单价 | 总价款 | 联系方式 | 身份证号 | 开户银行 | 账号 | 存放库位 | 备注 |
| 1 | 32 | 2月21日 | 黑HB7165 | 叶明 | 原煤 | 4964 | 101.94 | 20.44 | | 81.50 | | 1175 | 95,762.50 | 1560488499 | 230403198709190236 | 中国农业银行鹤岗大陆支行 | 6228482228429815470 | | |
| ... ||||||||||||||||||||||
| 合计 || | | | | | 1466.44 | 333.86 | | 1132.58 | | | 1,301,980.72 | | | | | | |
业务发生地:
用款方现场负责人:
监管方监管员:
填报日期:2022年3月10日
MinerU表现
|----|----|-------|---------|------|----|------|---------|--------|----|---------|---------|------|--------------|------------|--------------------|--------------|---------------------|---|------|----|---|
| 序号 | 期数 | 日期 | 车号 | 货主姓名 | 质量 || 重量 ||||| 金额 || 供货客户信息 ||||| 存放库位 | 备注 |
| 序号 | 期数 | 日期 | 车号 | 货主姓名 | 品种 | 卡数 | 毛重 | 皮重 | 扣重 | 净重 | 种重(折精煤) | 单价 | 总价款 | 联系方式 | 身份证号 | 开户银行 | 帐号 | | 存放库位 | |
| 1 | 32 | 2月21日 | 黑HB7165 | 叶明 | 原煤 | 4964 | 101.94 | 20.44 | | 81.50 | | 1176 | 95,702.50 | 1560188499 | 230403198709190236 | 中国农业银行鹤岗大站支行 | 62284R2228429815470 | | | |
| ... ||||||||||||||||||||||
| 合计 ||| | | | | 1466.44 | 333.86 | | 1132.58 | | | 1,301,980.72 | | | | | | | |
测试结论 :PaddleOCR 以微弱优势胜出。两者在高难度场景下均表现出色,但 PaddleOCR 错误更少:仅表头 "售货客户信息" 中 "售" 识别为 "货" 字、车号 "黑 HB7165" 遗漏 1 个 "H"、单价 "1176" 误写为 "1175";MinerU 则存在联系方式、银行名称、账号的字符错误,且未识别到表格底部的补充信息,且最后两列的表格展现出现偏差。此轮 PaddleOCR 胜出,最终战况为 5:4(PaddleOCR 反超)。
三、最终总结
本次测试聚焦实际业务中的复杂表格场景,PaddleOCR 3.0 虽以微弱优势在对比中胜出,但模型本身未实现突破性提升,与 MinerU 的差距主要体现在 "细节精度" 与 "边缘信息识别" 上。
值得肯定的是,PaddleOCR 3.0 的识别速度表现更优 ------ 平均比 MinerU 快 2~3 秒,这大概率得益于其 PaddleOCR-VL 0.9B 的超紧凑模型参数优势。从实际应用角度看,0.9B 参数的模型部署成本更低,在需要批量处理表格的业务场景(如金融单据录入、物流报表解析)中,具备更高的性价比与落地潜力。
最后附上两款工具的体验地址,供读者自行测试验证:
-
PaddleOCR 体验地址 :https://aistudio.baidu.com/application/detail/98365
-
MinerU 体验地址 :https://mineru.net/OpenSourceTools/Extractor