multimodel ocr dataset

Jumi爱笑笑2024-08-20 22:15

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=

a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入；

全图有一个global view,resize到336*336；

然后把图片resize再padding到336的整数倍划分成patch;

然后为了保留图片的2D信息，每一行结束的时候有个\n的分隔符，不同view之间有个sp分割符

We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use 'HD-25' for the pertaining

以下是一些预训练的策略：

实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token；

再finetune阶段是混合的策略，对于需要高分辨率的任务，比如说图表，就采用的分辨率HD55,，有一些是origin_size_{HD30,还有一些是HD25};

In terms of other OCR-related tasks, the

performance gain attributable to increased resolution is relatively minor.

在其他任务上，提升分辨率带来的收益比较小，但是对于ocr任务而言，提升分辨率带来的收益比较大；

全局试图的影响非常大：

当固定token数目的时候，是否使用换行符\n影响不大，但是tokens数目非常动态的时候，不使用换行符会导致性能降低；

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites

训练ocr任务的时候会把visiual encoder和mlp都打开；

Blip3

blip3训练的时候没有带上框，论文里面说可以训练下带上框的潜力；

200M的标注中有些包含框，有些没有包含框：

预训练数据越多，评测效果越好；

不同backbone的选择对于ocr任务的影响比较大；

使用不同的visual tokens数目带来的影响差别不大；

不同分辨率输入的结果：

上一篇：身份证OCR-身份证OCR识别-身份证OCR文字识别-身份证识别--身份证图像识别-身份证信息识别接口

下一篇：＜数据集＞航拍山火识别数据集＜目标检测＞

热门推荐

01KGG转MP3工具|非KGM文件|解密音频 02集群聊天服务器---MySQL数据库的建立 03Coze扣子平台完整体验和实践（附国内和国际版对比）04免费领50刀！AnyRouter一键解锁Claude最强编程模型 05Java学习第十五部分——MyBatis 06扣子（coze）实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解 07RAL-2025 | 触觉助力无人机空中探索！基于柔顺机器人手指的无人机触觉导航 08基于odoo17的设计模式详解---单例模式 09DeepSeek各版本说明与优缺点分析 10浅谈几种js设计模式