labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
EkihzniY43 分钟前
OCR定制识别:解锁文字识别的无限可能
大数据·人工智能·ocr
翔云 OCR API43 分钟前
OCR报关单-进出口报关单识别接口-智能通关
ocr
腾飞开源1 天前
21_Spring AI 干货笔记之 Mistral AI 聊天
人工智能·ocr·多模态·springai·聊天模型·mistral ai·openai兼容
余俊晖2 天前
多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1
人工智能·ocr·多模态
余俊晖2 天前
多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方
人工智能·ocr·多模态
2的n次方_2 天前
面向openEuler操作系统:OCR软件应用部署流程、性能评测
ocr
robinspada3 天前
常见开源ocr评测
开源·ocr
液态不合群3 天前
用开源模型强化你的 OCR 工作流
开源·ocr
AI人工智能+4 天前
文档抽取技术通过融合CV、NLP与深度学习,实现了复杂文献的结构化转化
nlp·ocr·文档抽取
点云-激光雷达-Slam-三维牙齿4 天前
任意PDF与图片的批量信息提取软件 OCR 识别加大模型
pdf·ocr