OCRFlux-3B:开源 OCR + LLM 模型的新标杆,支持跨页表格合并

最近ChatDOC团队发布了一款非常实用的多模态 OCR 大模型:OCRFlux-3B,这是一个基于 Qwen2.5-VL-3B-Instruct 微调得到的模型,专为文档解析任务优化,在解析 PDF、图片内容为 Markdown文本的效果上非常亮眼,尤其值得一提的是,它原生支持跨页表格与段落合并,这是目前开源 OCR 项目中首次实现该能力的模型。

模型定位

OCRFlux-3B本质上是一个轻量级的视觉语言模型,参数量为 3B,可以在消费级显卡(如 3090)上运行。其核心功能是将 PDF、扫描图像等文档转化为结构清晰、格式合理的 Markdown 文本,适用于文档数字化、知识抽取等任务。适用场景包括:

● 批量文档解析(支持千万级处理规模)

● 结构化信息抽取(如表格、段落)

● 支持中英文混排文档

兼容跨页内容合并

主要特性亮点

高精度文本解析能力

在官方自建基准集 OCRFlux-bench-single(含 2000 页 PDF 中英文文档)上,OCRFlux-3B 在EDS指标上表现如下:

模型 英文 EDS 中文 EDS 综合
olmOCR-7B 0.885 0.859 0.872
Nanonets-OCR-s 0.870 0.846 0.858
MonkeyOCR 0.828 0.731 0.780
OCRFlux-3B 0.971 0.962 0.967

相比其他主流开源 OCR 模型,OCRFlux-3B 提升非常明显,尤其在中文场景下依然表现稳定。

EDS指标为Edit Distance Similarity,即编辑距离相似度,是一个度量两个字符序列之间差异的字符串度量标准。

跨页结构智能合并(业内首个开源支持)

PDF 文档中,表格、段落跨页是常见现象。OCRFlux-3B 原生支持这类结构的智能检测与合并,具体包括:

● 段落合并:自动识别换页中断的段落并拼接

● 表格合并:能处理重复表头、跨行/跨列、多行单元格的表格

● 复杂表格识别:可识别横向分页(大宽表被切开)、嵌套结构等

在 OCRFlux-bench-cross 基准上,其跨页结构合并检测的综合 F1 高达 0.986,中文样本中准确率甚至达到 99.4%。

表格解析能力

OCRFlux-3B 同时支持 HTML 格式的表格结构输出。其在 OCRFlux-pubtabnet-single 基准(共 9064 个表格)上的表现如下:

模型 简单表格 复杂表格 综合 TEDS
olmOCR-7B 0.810 0.676 0.744
MonkeyOCR 0.880 0.826 0.853
OCRFlux-3B 0.912 0.807 0.861

OCRFlux-3B 在简单与复杂表格上都有竞争力,适合后续结构化处理场景。

TEDS 指标用于衡量表格结构还原的相似度。

模块拆解

OCRFlux 不仅提供了模型本体,还构建了完整的多文档批处理 pipeline,适用于生产场景,便于二次开发和功能拆解。

主入口

● 脚本:pipeline.py

● 功能:批量调度 PDF 或图像的解析任务,结合 vllm 模型服务,实现高效的分布式推理。

● 特点:

○ 支持任务并发(--workers)

○ 支持失败页重试、最大错误率控制

○ 可按页分组处理(--pages_per_group)

○ 可跳过跨页结构合并(--skip_cross_page_merge)

后处理工具

● 脚本:jsonl_to_markdown.py

● 功能:将模型输出的 JSONL 格式转为最终 Markdown 文件。

● 支持解析每页元素结构(段落、表格)并拼接为完整文档。

页级解析能力评估

● 脚本:eval_page_to_markdown.py

● 用途:评估单页 Markdown 输出与人工标注结果的相似度。

● 指标:使用 Edit Distance Similarity(EDS)作为衡量标准。

表格结构识别评估

● 脚本:eval_table_to_html.py

● 功能:衡量输出 HTML 表格与真实表格结构的相似度。

● 指标:TEDS(Tree Edit Distance-based Similarity)

跨页结构检测能力评估

● 脚本:eval_element_merge_detect.py

● 功能:检测两页之间是否存在需要合并的段落/表格,并输出对应元素索引。

● 指标:准确率、召回率、F1

跨页表格合并质量评估

● 脚本:eval_html_table_merge.py

● 功能:将前后两页的表格 fragment 输入模型,输出合并后的完整表格,计算其与标注值的 TEDS 相似度。

● 难点场景处理:

○ 表头重复去重

○ 单元格内容换页拼接

○ 多列跨页对齐

快速上手体验

官方提供了在线 Demo 地址,可以直接上传 PDF 查看解析效果:

👉 https://ocrflux.pdfparser.io

另外还支持 API 和 Docker 本地部署,下面是最简代码调用示例:

python 复制代码
from vllm import LLM
from ocrflux.inference import parse

llm = LLM(model="model_dir/OCRFlux-3B", gpu_memory_utilization=0.8)
result = parse(llm, 'test.pdf')

with open('test.md', 'w') as f:
    f.write(result['document_text'])

或者使用 Docker:

bash 复制代码
docker run -it --gpus all \
  -v /path/to/localworkspace:/localworkspace \
  -v /path/to/test_pdf_dir:/test_pdf_dir/ \
  -v /path/to/OCRFlux-3B:/OCRFlux-3B \
  chatdoc/ocrflux:latest /localworkspace --data /test_pdf_dir/* --model /OCRFlux-3B/

解析完成后,Markdown 文件将保存在 ./localworkspace/markdowns/ 目录中。

总结

OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型,不仅精度高,而且支持关键的结构化能力,并且能够在消费级硬件上运行,实用性极高。

如果你正在做文档结构提取、知识库构建或企业文档数字化系统,不妨试试OCRFlux-3B,它可能会是目前最具性价比的选择之一。

相关推荐
铮铭6 小时前
【论文阅读】具身竞技场:面向具身智能的全面、统一、演进式评估平台
论文阅读·人工智能·机器人·世界模型
rengang666 小时前
10-支持向量机(SVM):讲解基于最大间隔原则的分类算法
人工智能·算法·机器学习·支持向量机
用户5191495848456 小时前
如何通过内核版本检查判断FreeBSD是否需要重启
人工智能·aigc
聚客AI6 小时前
🥺单智能体总是翻车?可能是你缺了这份LangGraph多Agent架构指南
人工智能·llm·agent
szxinmai主板定制专家7 小时前
RK3588+AI算力卡替代英伟达jetson方案,大算力,支持FPGA自定义扩展
arm开发·人工智能·分布式·fpga开发
ccut 第一混7 小时前
c# 使用yolov5模型
人工智能·深度学习
PHOSKEY7 小时前
应用案例丨3D工业相机如何实现「焊接全工序守护」
人工智能
喜欢吃豆8 小时前
从指令到智能:大型语言模型提示词工程与上下文工程的综合分析
人工智能·语言模型·自然语言处理·大模型·提示词工程·上下文工程
Fuly10248 小时前
prompt构建技巧
人工智能·prompt
on_pluto_8 小时前
LLaMA: Open and Efficient Foundation Language Models 论文阅读
python·机器学习