multimodel ocr dataset

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=

a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入;

全图有一个global view,resize到336*336;

然后把图片resize再padding到336的整数倍划分成patch;

然后为了保留图片的2D信息,每一行结束的时候有个\n的分隔符,不同view之间有个sp分割符

We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use 'HD-25' for the pertaining

以下是一些预训练的策略:

实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token;

再finetune阶段是混合的策略,对于需要高分辨率的任务,比如说图表,就采用的分辨率HD55,,有一些是origin_sizeHD30,还有一些是HD25;





In terms of other OCR-related tasks, the

performance gain attributable to increased resolution is relatively minor.

在其他任务上,提升分辨率带来的收益比较小,但是对于ocr任务而言,提升分辨率带来的收益比较大;

全局试图的影响非常大:

当固定token数目的时候,是否使用换行符\n影响不大,但是tokens数目非常动态的时候,不使用换行符会导致性能降低;

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites

训练ocr任务的时候会把visiual encoder和mlp都打开;





Blip3


blip3训练的时候没有带上框,论文里面说可以训练下带上框的潜力;

200M的标注中有些包含框,有些没有包含框:

预训练数据越多,评测效果越好;

不同backbone的选择对于ocr任务的影响比较大;

使用不同的visual tokens数目带来的影响差别不大;

不同分辨率输入的结果:

相关推荐
思通数据21 小时前
AI全域智能监控系统重构商业清洁管理范式——从被动响应到主动预防的监控效能革命
大数据·人工智能·目标检测·机器学习·计算机视觉·数据挖掘·ocr
向北威威1 天前
eSearch:一款集截图、OCR与录屏于一体的多功能软件
ocr
静心问道1 天前
Donut:无OCR文档理解Transformer
深度学习·ocr·transformer
开开心心就好2 天前
高效全能PDF工具,支持OCR识别
java·前端·python·pdf·ocr·maven·jetty
一个人的博客@你3 天前
C# 通用OCR识别
图像处理·c#·ocr·图像识别·文字提取
Grassto4 天前
dockerfile: PaddleOCR hubserving api 服务
docker·ocr·paddleocr
TextIn智能文档云平台5 天前
PDF文档解析新突破:图表识别、公式还原、手写字体处理,让AI真正读懂复杂文档!
图像处理·人工智能·算法·自然语言处理·pdf·ocr
带鱼工作室5 天前
通义读光系列文字检测+识别模型端到端OCR应用
python·opencv·计算机视觉·ocr
白熊1885 天前
【计算机视觉】OpenCV实战项目:Text-Extraction-Table-Image:基于OpenCV与OCR的表格图像文本提取系统深度解析
opencv·计算机视觉·ocr
沉到海底去吧Go6 天前
【身份证识别表格】批量识别身份证扫描件或照片保存为Excel表格,怎么大批量将身份证图片转为excel表格?基于WPF和腾讯OCR的识别方案
ocr·wpf·excel·身份证识别表格·批量扫描件身份证转表格·图片识别表格·图片识别excel表格