multimodel ocr dataset

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=

a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入;

全图有一个global view,resize到336*336;

然后把图片resize再padding到336的整数倍划分成patch;

然后为了保留图片的2D信息,每一行结束的时候有个\n的分隔符,不同view之间有个sp分割符

We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use 'HD-25' for the pertaining

以下是一些预训练的策略:

实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token;

再finetune阶段是混合的策略,对于需要高分辨率的任务,比如说图表,就采用的分辨率HD55,,有一些是origin_sizeHD30,还有一些是HD25;





In terms of other OCR-related tasks, the

performance gain attributable to increased resolution is relatively minor.

在其他任务上,提升分辨率带来的收益比较小,但是对于ocr任务而言,提升分辨率带来的收益比较大;

全局试图的影响非常大:

当固定token数目的时候,是否使用换行符\n影响不大,但是tokens数目非常动态的时候,不使用换行符会导致性能降低;

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites

训练ocr任务的时候会把visiual encoder和mlp都打开;





Blip3


blip3训练的时候没有带上框,论文里面说可以训练下带上框的潜力;

200M的标注中有些包含框,有些没有包含框:

预训练数据越多,评测效果越好;

不同backbone的选择对于ocr任务的影响比较大;

使用不同的visual tokens数目带来的影响差别不大;

不同分辨率输入的结果:

相关推荐
D_FW19 小时前
Springboot调用阿里云行驶证 OCR 识别
阿里云·云计算·ocr
开开心心_Every2 天前
PDF密码移除工具,解除打印编辑复制权限免费
linux·运维·服务器·pdf·web3·ocr·共识算法
知秋丶2 天前
LangGraph 实战:如何用“双图编排”将多模态 OCR-RAG 做到生产级落地
人工智能·langchain·ocr
AI人工智能+2 天前
食品经营许可证识别技术:基于深度学习的高精度OCR解决方案
深度学习·ocr·食品经营许可证识别
Alex艾力的IT数字空间2 天前
OCR 原理:从像素到文本的智能转换
数据结构·人工智能·python·神经网络·算法·cnn·ocr
Codefengfeng3 天前
如何本地部署大模型(以PaddleOCR-VL-1.5为例)
vscode·visualstudio·docker·语言模型·aigc·ocr
AI人工智能+16 天前
CNN+CRNN+NER:如何实现食品经营许可证秒级结构化信息提取?
深度学习·ocr·食品经营许可证识别
摆烂小白敲代码17 天前
腾讯云智能结构化OCR在物流行业的应用
大数据·人工智能·经验分享·ocr·腾讯云
开开心心就好20 天前
免费音频转文字工具,绿色版离线多模型可用
人工智能·windows·计算机视觉·计算机外设·ocr·excel·语音识别
开开心心_Every21 天前
全屏程序切换工具,激活选中窗口快速切换
linux·运维·服务器·pdf·ocr·测试用例·模块测试