labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
机器学习算法与Python实战2 小时前
我写了一个OCR测试工具:DeepSeekOCR、PaddleOCR 和 混元OCR
ocr
week_泽6 小时前
OCR学习笔记,调用免费百度api
笔记·学习·ocr
week_泽6 小时前
离线OCR笔记及代码
笔记·ocr
njsgcs6 小时前
ai自己制作mod2 ocr vlm识别 模型页面点击打开模型页面
ocr·vlm
2501_9462139010 小时前
Zettlr(科研笔记) v4.0.0 中文免费版
java·经验分享·笔记·pdf·github·ocr·开源软件
todoitbo11 小时前
【TextIn大模型加速器 + 火山引擎】基于 Dify 构建企业智能文档中枢:技术文档问答+合同智审+发票核验一站式解决方案
人工智能·ocr·火山引擎·工作流·dify·textln·企业智能文档
☛挣钱给老婆买包1 天前
OCR记录
ocr
机器学习算法与Python实战1 天前
DeepSeek-OCR本地部署(1):CUDA 升级12.9,不重启,教程
人工智能·ocr
AI人工智能+1 天前
融合OCR与大模型的智能文本信息抽取技术,推动合同管理从静态文档向智能化商业载体的转型
大模型·ocr·文本信息抽取
nvd112 天前
PDFLoader 中的 OCR 文字提取实现详解
llm·ocr