multimodel ocr dataset

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=

a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入;

全图有一个global view,resize到336*336;

然后把图片resize再padding到336的整数倍划分成patch;

然后为了保留图片的2D信息,每一行结束的时候有个\n的分隔符,不同view之间有个sp分割符

We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use 'HD-25' for the pertaining

以下是一些预训练的策略:

实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token;

再finetune阶段是混合的策略,对于需要高分辨率的任务,比如说图表,就采用的分辨率HD55,,有一些是origin_sizeHD30,还有一些是HD25;





In terms of other OCR-related tasks, the

performance gain attributable to increased resolution is relatively minor.

在其他任务上,提升分辨率带来的收益比较小,但是对于ocr任务而言,提升分辨率带来的收益比较大;

全局试图的影响非常大:

当固定token数目的时候,是否使用换行符\n影响不大,但是tokens数目非常动态的时候,不使用换行符会导致性能降低;

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/

!在这里插入图片描述(https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites

训练ocr任务的时候会把visiual encoder和mlp都打开;





Blip3


blip3训练的时候没有带上框,论文里面说可以训练下带上框的潜力;

200M的标注中有些包含框,有些没有包含框:

预训练数据越多,评测效果越好;

不同backbone的选择对于ocr任务的影响比较大;

使用不同的visual tokens数目带来的影响差别不大;

不同分辨率输入的结果:

相关推荐
AI人工智能+8 小时前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取
无心水14 小时前
27、私有化部署|PaddleOCR-Server 本地OCR服务搭建
金融·pdf·ocr·pdf解析·pdf抽取·pdf提取·ocr服务
情绪总是阴雨天~20 小时前
OCR光学字符识别技术:完整原理与实战学习笔记
笔记·学习·ocr
Sour20 小时前
扫描版 PDF 翻译流程:OCR 识别、译文校对和排版保留
pdf·ocr
曲辕RPA1 天前
曲辕RPA-鼠标悬停在文字上(OCR)
ocr·rpa
bing_feilong1 天前
轻量级OCR
ocr
光之后裔2 天前
用自定义数据集微调PP-OCRv5文本检测、识别模型
python·机器学习·ocr
王五周八2 天前
Tesseract OCR的Java使用(附安装包,非常详细)
java·开发语言·ocr
AI人工智能+2 天前
银行回单识别技术通过OCR与深度学习实现财务数字化转型
深度学习·自然语言处理·ocr·银行回单识别
yugi9878382 天前
基于C#实现数字识别率的OCR方案
开发语言·c#·ocr