labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
爱吃饼干的熊猫9 小时前
告别繁琐管道:LightOnOCR-2-1B 如何以 1B 参数实现极致 OCR 性能
ocr
算力魔方AIPC9 小时前
DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力
arm开发·人工智能·ocr
souyuanzhanvip1 天前
STranslate v2.0.4:Windows 离线 OCR 划词翻译工具
ocr·实用工具
袁煦丞 cpolar内网穿透实验室1 天前
告别付费 OCR!PaddleOCR-VL 秒识别手写、公式。cpolar内网穿透实验室第 756 个成功挑战
ocr·远程工作·内网穿透·cpolar·办公搭档
德育处主任Pro1 天前
『NAS』在群晖部署OCR文字识别工具-TrWebOCR
docker·ocr·群晖·nas
miaobinfei1 天前
pdf转word,图片文字转word(使用OCR工具)
pdf·ocr·word
熊明才2 天前
DeepSeek-OCR VLLM 环境配置指南
ocr·vllm
兔兔爱学习兔兔爱学习2 天前
创建CUDA11.8环境部署DeepSeek-OCR
ocr
alvinToffler3 天前
kkocr简单好用的ocr文字表格识别工具
ocr·文字识别·表格识别·表格按列选择
秋氘渔4 天前
使用Ollama部署DeepSeek-OCR模型:从零开始的完整指南
ocr·ollama·deepseek-ocr