OCRBench:评估多模态大模型的OCR能力

论文地址:OCRBench: On The Hidden Mystery of OCR In Large Multimodal Models:2305.07895

OCRBench在10个文本相关任务上测评多模态大模型(LMM)的OCR能力,包含1000个问题-答案对,每个问题-答案对包含以下五个类别:index(索引),image(图片),question(问题),answer(回答),category(问题类别)。其中问题类别主要有以下内容:

任务 翻译 image(图片)示例 question(问题)示例 answer(回答)示例 任务数量
Key Information Extraction 关键信息提取 what is the total amount of this receipt? Answer this question using the text in the image directly. ['26.58'] 200
Doc-oriented VQA 面向文档的视觉问答 Whats the Venue Name? ['the halfmoon'] 200
Scene Text-centric VQA 以场景文本为中心的视觉问答 What is the title of the book? ['PENDRAGON'] 200
Handwritten Mathematical Expression Recognition 手写数学表达式识别 Please write out the expression of the formula in the image using LaTeX format. ['x = \\frac { 1 7 } { 5 }\n'] 100
Irregular Text Recognition 不规则文本识别 what is written in the image? ['COFFEE'] 50
Regular Text Recognition 规则文本识别 what is written in the image? ['CHAIN'] 50
Non-Semantic Text Recognition 非语义文本识别 what is written in the image? ['espt'] 50
Digit String Recognition 数字字符串识别 what is the number in the image? ['9557'] 50
Handwriting Recognition 手写体识别 what is written in the image? ['bread'] 50
Artistic Text Recognition 艺术文本识别 what is written in the image? ['Home'] 50
Total 总计 - - - 1000

需要注意的是,在tsv文件中,图片使用Base64编码保存。Base64 编码可将二进制图像文件(PNG、JPEG、GIF)转换为紧凑的纯文本字符串,从而直接嵌入到 HTML、CSS 或 JSON 中。

要将Base64编码转换为图片,有以下三种方式:

(1)使用在线网站:例如:Base64 转图片转换器 -- 免费在线工具箱 - DopuBOX

(2)使用脚本:

python 复制代码
import base64

# 1. 复制 Base64 编码字符串
base64_data = "/9j/4AAQSkZJRgABAQAAAQABAAD/...(完整字符串)/ALz44+gHAooA/9k="

# 2. 解码并保存为图片
with open("output.jpg", "wb") as f:
    f.write(base64.b64decode(base64_data))

print("图片已保存为 output.jpg")

(3)浏览器直接预览

在 HTML 文件中使用以下代码:

html 复制代码
<img src="data:image/jpeg;base64,/9j/4AAQSkZJRgABAQ...(完整 Base64 字符串).../9k=">

用浏览器打开该 HTML 文件即可显示图片。


说明

  • 编码类型 :该字符串是 JPEG 图片 的 Base64 编码(以 /9j/ 开头)。

  • 注意事项 :确保复制完整的编码(从 /9j/ 到结束标记 /9k=),否则转换会失败。

相关推荐
AiTEN_Robotics8 小时前
AMR机器人:如何满足现代物料搬运的需求
人工智能·机器人·自动化
产品人卫朋8 小时前
卫朋:IPD流程落地 - 市场地图拆解篇
大数据·人工智能·物联网
沛沛老爹9 小时前
跨平台Agent Skills开发:适配器模式赋能提示词优化与多AI应用无缝集成
人工智能·agent·适配器模式·rag·企业转型·skills
zhangshuang-peta9 小时前
适用于MCP的Nginx类代理:为何AI工具集成需要网关层
人工智能·ai agent·mcp·peta
Network_Engineer9 小时前
从零手写RNN&BiRNN:从原理到双向实现
人工智能·rnn·深度学习·神经网络
想进部的张同学9 小时前
week1-day5-CNN卷积补充感受野-CUDA 一、CUDA 编程模型基础 1.1 CPU vs GPU 架构线程索引与向量乘法
人工智能·神经网络·cnn
睡醒了叭9 小时前
目标检测-深度学习-SSD模型项目
人工智能·深度学习·目标检测
冰西瓜6009 小时前
从项目入手机器学习(五)—— 机器学习尝试
人工智能·深度学习·机器学习
Coding茶水间9 小时前
基于深度学习的狗品种检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习
InterestOriented9 小时前
中老年线上学习发展:兴趣岛“内容+服务+空间”融合赋能下的体验升级
人工智能·学习