【OCR】——端到端文字识别GOT-OCR2.0不香嘛?

代码:https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file

在线demo:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

0.前言

最早做ocr的时候,就在想如何能做一个端到端的模型,就不用先检测再识别,最起码只用只用维护一个模型。现在他来了。而且鲁棒性,适用面都很强。但是部署。。。

1.效果实测

可以通过在线demo实测,效果强的可怕。

2.论文解读

2.1 主要贡献

  • 实现了一种端到端的OCR模型。
  • 多样的输入,多样的输出,还支持交互式。
  • 在输入端,该模型支持切片和整页样式中常用的场景和文档样式图像。在输出端,GOT 可以通过简单的提示生成普通或格式化的结果(markdown/tikz/smiles/kern)。此外,该模型具有交互式OCR特征,即由坐标或颜色引导的区域级识别。此外,我们还将动态分辨率和多页OCR技术应用于GOT,以获得更好的实用性

2.2 网络结构


encoder :编码器结构是 VitDet基本版本,参数约为 80M,它将 1024×1024×3 输入图像转移到 256×1024 图像token,然后,这些图像标记通过 1024×768 线性层投影到语言模型。
qwen-0.5B:大语言模型

2.3 训练细节

第一阶段:encoder训练

受 LVLM 设计的启发,解码器可以通过训练有素的语言模型进行初始化。然而,我们没有为 OCR-2.0 模型找到合适的预训练编码器,所以我们必须自己训练一个。我们希望新的OCR编码器能够很好地处理各种输入形状(切片和整个页面)中常用的场景和文档文本识别。

编码器结构是 VitDet基本版本,再接一个小的decoder OPT-125M

第二阶段:微调大预言decoder

在视觉编码器的预训练步骤之后,我们将其连接到更强大的语言模型,以构建 GOT 的最终架构。在这里,我们采用 Qwen-0.5B作为解码器,因为它的参数数量相对较少,同时结合了多种语言的先验知识。连接器的尺寸(即线性嵌入层)调整为 1024×1024,以与 Qwen-0.5B 的输入通道对齐。因此,GOT 具有无缝的编码器-解码器范式,总共有大约 580M 的参数,这在计算上更友好,更容易部署在具有 4G 内存的消费级 GPU 上。编码器的高压缩率(1024×1024 光像素到 256 个图像标记)为解码器节省了大量标记空间以生成新的标记。同时,解码器的令人满意的解码上下文长度(我们使用大约 8K max-length)确保 GOT 可以有效地输出密集场景下的 OCR 结果

第三阶段:prompt微调

作为高交互特征,细粒度OCR是由空间坐标或颜色控制的区域级视觉感知。用户可以在问题提示中添加框坐标(框引导的 OCR)或颜色文本(颜色引导的 OCR),以请求感兴趣区域 (RoI) 内的识别,避免其他不相关字符的输出

2.4 实验结果

  1. open-source Fox benchmark上的结果
  2. 论文中效果图

3. other

  • 核心就是一个encoder+decoder模式的ocr,这和最开始的end2end ocr的核心是一样的,只是以前是用cnn+transformer,或者transformer+transformer,现在encoder,decoder都用了更大的模型,更多的数据。
相关推荐
Sour12 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
旗讯数字13 天前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
XTIOT66613 天前
多形态护照 OCR 读取器传输机制、识别算法与行业落地技术对比
大数据·人工智能·嵌入式硬件·物联网·ocr
天天代码码天天13 天前
用 TensorRT 加速 PP-OCR:一套 C++ DLL + C# 调用的高性能 OCR 推理方案
c++·c#·ocr
2401_8856651913 天前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
东集Seuic13 天前
食品标签新规 GB 7718-2025 倒计时:产线“首件检验”如何用东集小码哥CRUISE Ge2-M跑通 OCR 智能核对?
大数据·人工智能·ocr
小鹏linux14 天前
鸿蒙PC迁移:Tesseract OCR C++ 三方库鸿蒙适配全记录
c++·ocr·harmonyos
开开心心就好14 天前
自动生成小学数学题库支持导出Word
人工智能·安全·leetcode·贪心算法·ocr·音视频·语音识别
FL162386312915 天前
基于C#winform使用纯opencv部署ppocrv5和ppocrv6的onnx模型进行OCR文件检测识别
opencv·c#·ocr
AI人工智能+15 天前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取