labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
EntyIU1 小时前
mineru从安装部署到测试使用完整指南
python·ocr
OCR_133716212754 小时前
技术解读:国内第一梯队 OCR 大模型现状与技术路线分析
ocr
AI人工智能+10 小时前
赋能智慧监管:基于深度学习的特种行业许可证全要素精准识别系统
计算机视觉·自然语言处理·ocr·特种行业许可证识别
AI人工智能+13 小时前
施工许可证智能识别系统通过融合计算机视觉与自然语言处理技术,实现了建筑行业关键证件的自动化信息提取
人工智能·深度学习·计算机视觉·ocr·施工许可证识别
王莎莎-MinerU1 天前
MinerU 深度技术解析:从架构原理到生产部署的全面指南
css·人工智能·自然语言处理·架构·ocr·个人开发
庖丁AI2 天前
PDF表格提取工具怎么选?普通转换、OCR和解析工具的区别
pdf·ocr
weixin_397574092 天前
食品包装AI质检系统技术实现:从OCR提取到合规检测全链路
人工智能·ocr
OCR_133716212753 天前
2026大模型OCR横向测评:百度、腾讯、DeepSeek等主流模型选型对比
百度·ocr
AI人工智能+3 天前
医疗器械经营许可证识别技术通过深度学习与OCR技术实现高效资质审核
自然语言处理·ocr·医疗器械经营许可证识别
tedcloud1233 天前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr