性能超越 YOLO、GPT-4 的图像自动标注工具:T-Rex Label

前言

手动数据标注必然是 AI 智能中最不智能的部分,周期长、质量不稳定一直是行业痛点。遇到复杂场景(数量多、背景复杂、难识别)更是苦不堪言。COCO 数据中大量的 is_crowd 就说明了问题,难标的数据带来性能不佳的模型。

开源模型预标注一定程度改变了现状,被 Labelbox、Roboflow 等国外的 SaaS 产品采用,但是价格高昂,面对复杂场景错标、漏标频出,也需要再训练微调才能落地。

后来,Grounding DINO,SAM 的相继涌现把图像标注革新了一轮。

2024年,基于视觉提示的自动标注工具 T-Rex Label,旨在把智能标注推进到下一阶段。

核心亮点

相信研究计算机视觉的朋友都会对刷新 SOTA 纪录的 Grounding DINO 和 T-Rex2 模型有所耳闻,T-Rex Label 正是同一个团队(IDEA)基于 T-Rex2 推出的自动标注工具。

AI 一键标注,复杂场景效率王者

T-Rex2 视觉提示功能相比于语言提示更高效。视觉提示可以直接框选 prompt 生成指令。语言提示在一些情况下则需要反复的措辞与修改,会消耗更多的时间。对于语言描述困难的物体,如复杂的形状或特殊的纹理,视觉提示可以有效降低语言障碍对标注过程的影响,即使在面对罕见的物体时也能提供准确高效的标注。

交互式视觉提示则可以让用户立即得到反馈,并在必要时进行快速修正,确保标注的准确性,提升数据质量。

因此,T-Rex Label 的工作流程可以概括为:框选目标物体→ AI 一键标注→人工检查与 AI 辅助修正,省去了编排语言指令与手动拉框的过程,大大简化了标注流程。

超越GPT-4V, YOLOv8,效率、准确度兼备

在国外学者 Konlavach Mengsuwan 的论文[1] 中,通过数咖啡豆的场景,直观地对比了 T-Rex 模型、 GPT-4V 和 YOLOv8。

GPT-4V 作为性能最强的多模态模型模型,在物体计数的速度与准确度上远不及 T-Rex。在效率方面,T-Rex 可以实现 0.5 秒完成一张图片推理,包含物体检测与物体计数。GPT-4V 则需要 1.05 秒才能处理一张图片。在准确度方面,T-Rex 预测准确度 R2 值为 0.923,是 GPT-4V Zero-Shot 的 2.5 倍,这说明 T-Rex 的图片分析结果更接近真实情况,能实现高精确度的物体检测。

T-Rex Label 的 AI 智能标注功能可以精准地按照提示识别物体。特别是针对高难度的复杂场景,T-Rex Label 更能展现出准确度优势。复杂场景除了物体数量,还存在物体大小、形状、角度的变异性,一些模型会在复杂场景中频频出错,因此还需要大量查缺补漏的时间。但 T-Rex Label 可以精准地识别出绝大部分物体,帮助标注员减少返工的时间。

通用模型,检测一切

使用预训练模型自动标注,通常需要收集数据、标注数据、微调模型、部署模型、再用于自动标注,这个周期较长,且耗时耗力。以 YOLOv8 为例,根据论文[1] 的实验结果,YOLOv8 需要花费大量的时间进行标注和训练,整个流程时长是 T-Rex 的194倍,标注的准确性也不及 T-Rex。

卓越的零样本检测能力,让 T-Rex Label 无需额外的训练成本就可以直接应用到各类场景的标注中,具有极强的泛化能力。目前已知 T-Rex Label 在农业、工业、动物、医疗、OCR、零售、电子、交通、物流等多个领域的数据集上都表现优异。

开箱即用,快速上手

T-Rex Label 无需下载安装,上手成本极低,还支持 Github 账号一键登录。

PC 端体验链接:T-Rex Label


1\] Mengsuwan K, Palacio J C R, Ryo M. ChatGPT and general-purpose AI count fruits in pictures surprisingly well\[J\]. arXiv preprint arXiv:2404.08515, 2024.

相关推荐
丁华林智能生产几秒前
2026年无人机倍速链流水线厂家怎么挑?
人工智能·自动化·无人机·制造
正在走向自律几秒前
AI视频生成:从文本到动态画面的技术演进
人工智能·hunyuanvideo引擎·ai视频技术
伟大的大威1 分钟前
【AI 集群实战】多节点 DGX Spark 集群共享大模型
大数据·人工智能·spark
HIT_Weston2 分钟前
9、【AI】【Agent】联网使用大模型(DashScope&ModelStudio)
人工智能
兴通扫码设备2 分钟前
ocr工业场景适配升级:深圳市兴通物联XTC8501智能相机接口与环境适应性技术解析
数据库·人工智能·深度学习·数码相机·计算机视觉
小陈phd3 分钟前
多模态大模型学习笔记(十六)——Transformer 学习之 Decoder Only
人工智能·笔记·深度学习·学习·自然语言处理·transformer
tinygone3 分钟前
OpenClaw安装openclaw-dashboard监控面板
人工智能·经验分享
SEO_juper4 分钟前
AI内容质量保证SOP:从生成、审核到发布的完整工作流
人工智能·搜索引擎·百度·ai·数字营销·2026
ai产品老杨5 分钟前
打破芯片壁垒:基于Docker与K8s的GB28181/RTSP异构AI视频平台架构实战
人工智能·docker·eureka·时序数据库·etcd
Takoony5 分钟前
OpenClaw 深度拆解:下一代自主智能体架构全面解析
人工智能·深度学习·算法·机器学习·架构·openclaw