labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
张登杰踩2 天前
工业图像序列识别实战:基于PyTorch的OCR模型训练与优化
人工智能·pytorch·ocr
AI人工智能+2 天前
一种融合大模型微调与高精度OCR的智能文档抽取系统,实现对合同文本中关键要素的高精度语义理解与结构化抽取
人工智能·语言模型·ocr·文档抽取
余俊晖2 天前
多模态文档解析新思路:MinerU-Diffusion通过扩散解码进行文档OCR
人工智能·ocr·多模态
带娃的IT创业者2 天前
文档扫描工具开发:高拍仪硬件集成与图像处理流水线
jvm·图像处理·人工智能·ocr·文档扫描·glm-4.6v·高拍仪
熊猫钓鱼>_>3 天前
MinerU的正确使用方式:如何解析PDF成标准化向量数据,以供AI大模型等场景应用
人工智能·阿里云·架构·pdf·ocr·skill·mineru
开开心心就好4 天前
免费自媒体多功能工具箱,图片音视频处理
人工智能·pdf·ocr·excel·音视频·语音识别·媒体
AI人工智能+4 天前
银行回单识别技术:融合计算机视觉与自然语言处理,实现对多版式回单的高精度解析
深度学习·计算机视觉·ocr·银行回单识别
Predestination王瀞潞5 天前
1.3.1 AI->Tesseract OCR Engine标准(HP、Google):Tesseract OCR Engine
人工智能·ocr
OpenCSG5 天前
百度千帆开源 Qianfan-OCR:端到端文档智能模型的架构革命
百度·架构·ocr
feasibility.6 天前
让OpenCode/OpenClaw的AI/Agent准确识别图表文字:PaddleOCR-VL-1.5 封装为全局 OCR skills
人工智能·aigc·ocr·ai编程