【ICLR26匿名投稿】OneTrackerV2：统一多模态目标跟踪的“通才”模型

文章：OneTrackerV2: Unified Multimodal Visual Object Tracking with Mixture of Experts

代码：暂无

单位：暂无

视觉目标跟踪（Visual Object Tracking）旨在根据目标在首帧中的外观，在后续帧中持续定位目标位置。然而，随着模态数量的增加（RGB、RGB+D、RGB+T、RGB+E、RGB+N），研究者们遇到了一个巨大挑战：

🧩 不同模态（modality）需要不同架构和权重，难以统一训练与部署。

现有方案主要分为两类：

这些方法普遍存在三大问题：

为解决这些痛点，作者提出 OneTrackerV2 ------一个可处理任意模态输入、一次训练即可泛化到多任务的统一框架。

Meta Merger 是一个轻量但高效的模态融合模块，用于将 RGB 与其他模态（Depth, Thermal, Event, Language）嵌入同一特征空间。

核心机制：

优势包括：

为进一步提升模型容量与泛化能力，作者提出 **DMoE (Dual Mixture-of-Experts)**：

这两个专家模块通过稀疏激活（sparse activation）提升模型表达能力，却几乎不增加计算量。作者还设计了两项关键机制：

💡 "双专家结构"实现了跨模态解耦与高效融合，性能提升显著而代价极低。

OneTrackerV2 在 5 个任务、12 个 benchmark 上全面超越现有方法。

在 LaSOT、TrackingNet、GOT-10k 等基准上，OneTrackerV2 在 AUC / Precision / PNorm 上均超越 SOTA：

在多模态任务上（Depth, Thermal, Event, Language），OneTrackerV2 同样领先：

🚀 模型训练一次即可完成五类任务，仍超越分任务特化模型。

在缺失模态测试（例如丢失 Thermal 或 Depth）下，OneTrackerV2 仍大幅领先：

OneTrackerV2 让目标跟踪从"任务专才"走向"多模态通才"，一次训练，统一架构，多模态适配，全面提升鲁棒性与可扩展性。