突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%

全景相机能够捕捉360°完整环境信息,在自动驾驶、机器人导航等领域有着广泛应用。然而,这种超广视野也给多目标跟踪(MOT)带来了前所未有的挑战:严重的图像畸变、分辨率不均匀、目标在画面边缘频繁切换导致身份丢失......

面对这些痛点,湖南大学、浙江大学、南洋理工大学、卡尔斯鲁厄理工学院和索非亚大学INSAIT的联合团队提出了OmniTrack++ ------一种革命性的全景多目标跟踪框架,不仅在技术上实现了创新突破,更在公开数据集上取得了显著性能提升,在新建的EmboTrack数据集上HOTA指标提升了惊人的43.07%

论文链接:arxiv.org/abs/2511.00...

代码仓库github.com/xifen523/Om...

全景MOT的困境:当传统方法遇到360°挑战

多目标跟踪本身就是一个复杂的任务,主流方法主要分为两类:

  • 检测后跟踪(TBD): 先检测每一帧中的所有目标,然后通过匹配算法(如匈牙利算法)关联不同帧中的同一目标,构建完整轨迹。这种方法灵活但高度依赖检测器性能,且关联步骤容易出错。
  • 端到端跟踪(E2E): 将检测和关联统一到一个模型中,利用前一帧的跟踪结果指导当前帧的检测,无需显式匹配,速度更快,但对目标消失和重现的情况处理不够鲁棒。

当这些方法应用到360°全景图像时,问题变得更加复杂。全景图像的几何畸变导致目标外观剧烈变化,宽广的视野使得搜索空间呈指数级增长。OmniTrack++的研究团队认为,单纯依赖任何一种范式都难以完美应对全景跟踪的挑战。

OmniTrack++的破局之道:自适应融合与轨迹反馈

OmniTrack++的核心创新在于提出了一种自适应框架,动态结合TBD和E2E的优点,并引入轨迹反馈机制来稳定跟踪过程。

与传统的单一范式不同,OmniTrack++能够根据场景动态,在TBD和E2E之间智能切换,同时利用轨迹反馈缩小搜索范围,大幅提高关联准确性。

核心技术解析:OmniTrack++如何实现卓越性能

  • DynamicSSM:为全景特征"减负"

面对全景图像的几何畸变和光照变化,传统方法通常尝试进行显式的几何校正,但这种方法往往计算复杂且效果有限。OmniTrack++设计了一个即插即用的DynamicSSM模块,通过状态空间模型(SSM)隐式调整特征分布,使模型学习到更稳定、更具鲁棒性的特征表示。

这一模块为后续的跟踪任务奠定了坚实基础,相当于为模型提供了一副"畸变校正眼镜"。

  • FlexiTrack与ExpertTrack Memory:长短时序关联的双重保障

可靠的跨帧关联是多目标跟踪的关键。OmniTrack++通过两个创新设计解决了这一问题:

FlexiTrack Instances:这是一种可学习的实例表示,不仅包含目标的外观信息,还融入了历史轨迹的动态信息。通过轨迹预测,模型可以更灵活地定位目标在下一帧可能出现的位置,实现可靠的短时关联。

ExpertTrack Memory:为了解决目标长期遮挡或外观剧变后的身份重识别问题,研究团队引入了强大的记忆模块。该模块采用专家混合(MoE)设计,多个"专家"网络分工合作,分别处理不同的外观变化情况(如光照、形变等)。

同时,该模块维护了一个长期稳定的身份记忆(Stable Identity Memory)和一个动态更新的交互记忆(Dynamic Interaction Memory),确保了长期跟踪的鲁棒性。

  • 范式自适应:E2E与TBD的动态平衡

OmniTrack++通过双分支适配器(Dual-Branch Adapter)智能地将目标分配给TBD或E2E分支处理,并由集成模块(Ensemble Module)融合两者的结果,输出最终轨迹。这种设计使系统既能享受E2E的高效率,又能利用TBD的灵活性处理复杂场景,实现"1+1>2"的效果。

全新基准与卓越性能:实验结果令人印象深刻

为了全面评估全景MOT算法,研究团队构建了全新基准数据集EmboTrack。该数据集由搭载在四足机器人(QuadTrack)和两轮机器人(BipTrack)上的全景相机采集,包含丰富的运动模式和场景,为研究提供了宝贵资源。

  • 定量结果:性能大幅超越现有方法

在EmboTrack数据集上的实验结果显示,OmniTrack++显著超越了所有现有方法:

  • 在QuadTrack数据集上,OmniTrack++E2E取得34.9的HOTA分数,较原始OmniTrack提升超过43%;OmniTrack++DA进一步将分数提升至36.08
  • 在BipTrack数据集上,OmniTrack++E2E与OmniTrack++DA分别取得44.63与44.96的HOTA分数,持续优于所有对比方法

这一显著进步归因于专家轨迹记忆模块与优化轨迹段管理机制的引入,有效缓解了遮挡导致的身份标识断裂问题,并在动态第一人称运动下保持稳定关联。

  • 消融实验:验证各模块有效性

消融实验进一步证明了各个模块的关键作用。移除DynamicSSM或ExpertTrack Memory都会导致性能显著下降,确认了这些设计的价值。

  • 定性结果:直观展示跟踪优势

定性结果同样令人信服。对比实验显示,在轨迹反馈的帮助下,模型的注意力能持续稳定地聚焦在目标上;而没有该模块时,定位则变得极不稳定。

即使在JRDB数据集上的复杂场景中,面对遮挡和动态变化,OmniTrack++也能保持稳定的跟踪性能,明显优于其他方法。

总结与展望

OmniTrack++通过反馈驱动和范式自适应框架,为全景感知中的多目标跟踪挑战提供了优雅而有效的解决方案。特别是ExpertTrack Memory的设计,对处理长时序任务中的身份保持问题极具启发性。

研究团队已承诺将开源代码和数据集,这将极大促进全景多目标跟踪领域的发展。对于从事计算机视觉、机器人导航、自动驾驶等领域的研究者和工程师来说,OmniTrack++无疑是一个值得关注和跟进的重要工作。

这项研究不仅解决了实际应用中的痛点,更为多目标跟踪领域的发展指明了新方向------自适应融合不同范式的优势,结合记忆机制与反馈循环,打造更加智能、鲁棒的跟踪系统。

相关推荐
lybugproducer2 小时前
深度学习专题:模型训练的数据并行(二)
人工智能·深度学习·神经网络
得物技术2 小时前
得物管理类目配置线上化:从业务痛点到技术实现
后端·算法·数据分析
CoovallyAIHub3 小时前
首个大规模、跨模态医学影像编辑数据集,Med-Banana-50K数据集专为医学AI打造(附数据集地址)
深度学习·算法·计算机视觉
熬了夜的程序员3 小时前
【LeetCode】101. 对称二叉树
算法·leetcode·链表·职场和发展·矩阵
电鱼智能的电小鱼3 小时前
基于电鱼 ARM 边缘网关的智慧工地数据可靠传输方案——断点续传 + 4G/5G冗余通信,保障数据完整上传
arm开发·人工智能·嵌入式硬件·深度学习·5g·机器学习
却道天凉_好个秋3 小时前
目标检测算法与原理(二):Tensorflow实现迁移学习
算法·目标检测·tensorflow
武子康3 小时前
AI研究-121 DeepSeek-OCR 研究路线:无限上下文、跨模态抽取、未来创意点、项目创意点
人工智能·深度学习·机器学习·ai·ocr·deepseek·deepseek-ocr
暴风鱼划水4 小时前
三维重建【4-A】3D Gaussian Splatting:代码解读
python·深度学习·3d·3dgs