labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的官方文档得到提示。

The units the x, y, width and height of image annotations are provided in percentages of overall image dimension.

翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。

根据这个原则,转换一下coco中的x、y坐标才能得到文字块在图片中正确的位置:

假如导出的数据x、y、width、height分别如下:

python 复制代码
pixel_x, pixel_y, pixel_width, pixel_height = 63,83,20,7 # 导出数据
original_width, original_height = 1650, 2314 # 图片的长宽

其实际的坐标如下:

python 复制代码
x = pixel_x/100 * original_width
y = pixel_y/100 * original_height
width = pixel_width/100 * original_width
height = pixel_height/100 * original_height

# x,y,width, height == > (1039.5, 1920.62, 330.0, 161.98000000000002)

实际中将坐标更换为整数在numpy中索引:

python 复制代码
x,y,width, height = [int(i) for i in [x,y,width, height]]

#子图
text_area = img[y:y+height,x:x+width,:] 

记录一下,以防日后使用忘记了

相关推荐
AI人工智能+20 小时前
文档抽取技术通过融合CV、NLP与深度学习,实现了复杂文献的结构化转化
nlp·ocr·文档抽取
点云-激光雷达-Slam-三维牙齿21 小时前
任意PDF与图片的批量信息提取软件 OCR 识别加大模型
pdf·ocr
翔云 OCR API2 天前
护照NFC识读鉴伪接口集成-让身份核验更加智能与高效
开发语言·人工智能·python·计算机视觉·ocr
wxl7812272 天前
从图片PDF到结构化文本:基于Python+Dify的批量OCR自动化解决方案
python·pdf·ocr
Blossom.1182 天前
基于Qwen2-VL+LayoutLMv3的智能文档理解系统:从OCR到结构化知识图谱的落地实践
开发语言·人工智能·python·深度学习·机器学习·ocr·知识图谱
EkihzniY2 天前
AI+OCR:解锁数字化新视界
人工智能·ocr
翔云 OCR API2 天前
承兑汇票识别接口技术解析-开发者接口
开发语言·前端·数据库·人工智能·ocr
paopao_wu2 天前
腾讯HunyuanOCR开源端到端OCR-1B:本地部署与测试
ai·开源·ocr·hunyuan
AI人工智能+3 天前
表格识别技术:完整还原银行对账单表格结构、逻辑关系及视觉布局,大幅提升使处理速度提升
人工智能·深度学习·ocr·表格识别
共绩算力3 天前
更小模型实现更强视觉 OCR
人工智能·ocr·共绩算力