IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO

把目标检测变成"下一个点预测",用2200万数据+强化学习解决行业难题

目标检测技术正在迎来一场范式革命!传统方法如YOLO、DETR依赖复杂的坐标回归,而IDEA(粤港澳大湾区数字经济研究院)研究院的最新研究Rex-Omni通过巧妙的任务重构,将目标检测转化为更符合大语言模型思维的"下一个点预测"任务,在零样本设置下实现了对传统强手的超越。

论文标题:

Detect Anything via Next Point Prediction

论文 链接

arxiv.org/abs/2510.12...

代码仓库

github.com/idea-resear...

突破传统:从坐标回归到点预测

Rex-Omni的核心创新在于彻底改变了目标检测的问题定义。研究团队将图像坐标空间量化为1000个离散值,每个值对应一个专用token。这样,一个边界框只需4个token(x0, y0, x1, y1)即可表示,完美适配语言模型的生成范式。

这种设计带来双重优势:

  • 降低学习难度: 连续的坐标回归简化为有限集合的分类问题
  • 提升推理效率: 相比将坐标拆解为单个数字的方法,token使用效率大幅提升

三大支柱:架构创新的坚实基础

Rex-Omni的成功建立在三大核心设计之上:

任务范式创新: 基于Qwen2.5-VL-3B架构,复用词汇表最后1000个token作为坐标专用token,无需大幅改动模型结构。

数据引擎支撑:团队构建自动化数据流水线,整合公共数据集与自产数据,最终形成2200万样本的训练集,覆盖定位、指代、指向等多种任务。

训练流程优化: 采用两阶段训练策略------先通过监督微调打下基础,再引入GRPO强化学习方法,通过几何感知奖励函数精细调整模型行为。

性能表现:零样本检测的新标杆

在权威基准测试中,Rex-Omni展现惊人实力:

COCO数据集: 零样本设置下,IoU阈值为0.5时,性能不仅超越之前最强MLLM SEED1.5-VL,甚至超过了为COCO专门训练的传统检测器DINO-R50。

LVIS长尾检测: 在更具挑战性的长尾任务中,mIoU指标达到46.9,证明其优秀泛化能力。

密集小目标检测: 在Dense200数据集上取得78.4的F1@0.5分数,有效解决了MLLM在密集小目标上的传统弱点。

多任务能力:超越传统检测的边界

得益于语言模型的底层架构,Rex-Omni展现出全面的视觉感知能力:

  • 指代性物体检测
  • 视觉提示理解
  • GUI界面定位
  • OCR文字识别
  • 关键点检测

这种统一的方法为开发通用视觉感知系统开辟了新路径。

技术启示与未来展望

Rex-Omni的突破表明,通过巧妙的任务重构,MLLM不仅能够"理解"图像内容,更能"精准定位"视觉元素。这种将目标检测统一到生成框架下的思路,为多模态大模型在视觉任务中的应用提供了全新范式。

该研究已全面开源,包括论文、代码和演示,为社区进一步探索提供了坚实基础。

相关推荐
A_nanda11 小时前
c# MOdbus rto读写串口,如何不相互影响
算法·c#·多线程
HaiLang_IT12 小时前
计算机视觉选题指南(2026版):图像分类、目标检测、分割等热门方向详解
计算机视觉·分类·课程设计
All The Way North-12 小时前
彻底掌握 RNN(实战):PyTorch API 详解、多层RNN、参数解析与输入机制
pytorch·rnn·深度学习·循环神经网络·参数详解·api详解
代码雕刻家12 小时前
2.4.蓝桥杯-分巧克力
算法·蓝桥杯
Ulyanov13 小时前
顶层设计——单脉冲雷达仿真器的灵魂蓝图
python·算法·pyside·仿真系统·单脉冲
2501_9414185513 小时前
【计算机视觉】基于YOLO11-P6的保龄球检测与识别系统
人工智能·计算机视觉
童话名剑13 小时前
情感分类与词嵌入除偏(吴恩达深度学习笔记)
笔记·深度学习·分类
咋吃都不胖lyh14 小时前
CLIP 不是一个 “自主判断图像内容” 的图像分类模型,而是一个 “图文语义相似度匹配模型”—
人工智能·深度学习·机器学习
智者知已应修善业14 小时前
【查找字符最大下标以*符号分割以**结束】2024-12-24
c语言·c++·经验分享·笔记·算法
91刘仁德14 小时前
c++类和对象(下)
c语言·jvm·c++·经验分享·笔记·算法