labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
翔云 OCR API3 小时前
人工智能驱动下的OCR API技术演进与实践应用
人工智能·ocr
探模之翼5 小时前
深度解读 DeepSeek-OCR 论文:通过视觉模态实现高效文本压缩
大模型·ocr·deepseek-ocr
paopao_wu14 小时前
DeepSeek-OCR实战(06):SpringBoot应用接入
java·spring boot·ai·ocr·deepseek
paopao_wu16 小时前
DeepSeek-OCR实战(05):DeepSeek-OCR-WebUI部署(Docker)
docker·ai·容器·ocr
OpenBayes17 小时前
教程上新丨Deepseek-OCR 以极少视觉 token 数在端到端模型中实现 SOTA
人工智能·深度学习·机器学习·ocr·大语言模型·文本处理·deepseek
kevin 117 小时前
财报OCR录入识别软件准确率高吗?易道博识财报录入实测效果如何?
ocr
❀͜͡傀儡师17 小时前
Docker 部署 DeepSeek-OCR 和WebUI
docker·容器·ocr
mit6.82417 小时前
[Column#187] 10data_struct | IP速查表 | 协议&TCP&UDP | DeepSeek-OCR
tcp/ip·udp·ocr
pursue.dreams1 天前
DeepSeek-OCR全面解析:技术原理、性能优势与实战指南
ocr·deepseek-ocr
啦啦9117141 天前
【工具】PixPin 电脑实用截图工具!带免费OCR截图/贴图/录屏/文字识别
ocr·贴图