追踪17只果蝇、7只线虫、10只小鼠，全程无需人工标注：这个无监督跟踪器如何颠覆动物行为研究？

论文信息

标题：Unsupervised transfer learning enables multi-animal tracking without training annotation

一句话速览

清华大学和复旦大学联合团队提出了一种无监督深度迁移学习方法UDMT，能在无需任何训练标注的情况下，精准追踪多只动物的运动轨迹。该方法在拥挤、遮挡、低对比度等挑战性场景下全面超越现有主流方法，并成功与微型显微镜结合，揭示了小鼠社会互动与神经活动之间的关联。

动物追踪的「标注困境」

想象一下，你需要在实验室里追踪10只黑色小鼠在圆形场地内的运动。它们看起来几乎一模一样，时不时挤在一起，甚至会互相遮挡。这是行为神经科学研究的日常------而研究人员面临的第一道坎，就是给每一帧视频中的每一只动物打上标签。

这种「暴力标注」的现状令人头疼。现有的动物追踪工具如DeepLabCut、SLEAP等虽然强大，但它们本质上都是监督学习------需要研究人员手动标注成百上千帧图像，告诉算法「这是小鼠1号，这是小鼠2号」。对于一场3分钟、每秒67帧的实验，这就意味着需要标注超过12000个位置点。

更麻烦的是，这些监督方法在面对一些「特殊场景」时会集体翻车：当白色小鼠在浅色背景上移动（低对比度），当多只动物频繁交互和遮挡，或者当动物突然加速奔跑时，身份切换（ID Switch）的错误就会像多米诺骨牌一样累积，最终导致整个追踪结果报废。

核心矛盾浮出水面： 我们既想要高精度的追踪，又不想付出海量的标注成本。特别是在跨物种实验中，每换一种实验动物就要重新标注一批数据，这对于追求高效的研究团队来说几乎是不可承受之重。

UDMT的核心创新：把时间变成老师

清华大学自动化系和脑与认知科学研究所的团队给出的解决方案，藏在一个看似反直觉的洞察里：一个优秀的追踪器，应该能沿着时间往前走，也能沿着时间往后退，并且最终回到原点。

这就好比你把一只老鼠放进迷宫里，让它自己找路走出去。如果你能在它返回时准确预测它会经过哪些位置，那么你本质上就理解了它的行为模式。UDMT正是利用了这一「循环一致性」原则------向前追踪和向后追踪的结果必须一致，这个约束本身就是训练的监督信号，无需任何人工标注。

具体来说，UDMT的核心由三个关键模块构成：

第一，时空Transformer网络（ST-Net）。 传统的追踪方法多用卷积神经网络（CNN）提取特征，但CNN本质上是在「看图片」，难以捕捉动物行为的时间动态变化。UDMT引入的ST-Net同时提取空间特征（动物长得什么样）和时间相关性（动物上一秒和这一秒的姿态如何变化）。结果令人震撼：仅此一项，身份切换错误就减少了三倍。

第二，双向身份校正模块。 这是UDMT的「纠错机制」。当追踪过程中发生身份切换（比如两只小鼠交叉时互换了ID），系统会自动检测到异常------通过监控运动速度的突变和定位置信度的骤降。一旦发现问题，它会利用反向追踪重新定位丢失的目标，并根据特征相似度重新分配正确的ID。实验表明，这个模块将追踪精度提升2.7倍。

第三，自动参数调优模块。 追踪算法里有一个令人头疼的超参数：搜索区域的大小。设得太小，动物跑快了找不到；设得太大，周围干扰太多，身份切换增多。UDMT的创新在于，它通过监控「纠错次数」、「离目标次数」和「丢失目标数」这三个无需标注的指标，自动搜索最优参数，彻底解放了研究人员的双手。

十只小鼠、十七只果蝇：用数据说话

论文团队进行了一系列堪称「残酷」的实验，将UDMT与DeepLabCut、DeepLabCut-SuperAnimal、SLEAP、idtracker.ai和TRex这五种主流方法进行了正面PK。

场景一：十只小鼠同框。 当场地里只有3只小鼠时，各方法表现差异尚可接受。但当动物数量增加到10只时，差距急剧拉大。UDMT的HOTA得分（综合检测和身份关联精度的核心指标）达到71.87%，而第二名DeepLabCut-SuperAnimal只有56.05%，SLEAP跌至49.71%，传统的idtracker.ai和TRex更是惨跌到25%左右。团队分析指出，这主要归功于UDMT能自动检测并纠正追踪过程中发生的身份切换错误。

场景二：在复杂环境中追踪。 团队模拟了小鼠的真实生活环境，放入水源、食物、遮蔽物等。实验结果依然显示，UDMT在定位精度和身份一致性上全面领先。即使图像分辨率低至每像素0.66毫米------这已经是大多数行为学平台的标准配置------UDMT依然表现稳健。

场景三：跨物种追踪。 UDMT展示了自己不仅仅是「老鼠专家」。它在17只果蝇、7只线虫和两条斗鱼的追踪实验中均取得最优结果。其中，追踪果蝇时，团队甚至发现了两只「追逐者」------它们的运动轨迹高度相似，只存在短暂的时间延迟，这种精细的行为分析在过去几乎不可能实现。

神经科学的新钥匙：当追踪遇见成像

为了验证UDMT的实际应用价值，团队将这项技术与头戴式微型显微镜结合，进行了一个精巧的实验。

他们把一只携带2.5克微型显微镜的转基因小鼠与四只正常小鼠放在同一场地中。微型显微镜同时记录着超过2000个神经元的钙活动信号------这些信号反映了神经放电的变化。

实验结果令人惊奇： 当小鼠距离同伴较近时，其初级视觉皮层神经元的放电率显著上升；当小鼠快速奔跑时，同样观察到了神经活动的增强。这意味着，小鼠的社会互动状态和运动状态都会系统地调制其神经活动。

更精细的分析显示，小鼠在面对不同个体时的神经活动模式也存在差异------这暗示了「身份特异性」的神经编码机制。正如团队所说，「显微镜下的细胞活动与宏观层面的动物行为之间存在一个完整的解释链条」，而UDMT恰好提供了将这两者连接起来的桥梁。

意义与局限

UDMT的出现，标志着动物行为追踪进入了一个新阶段。它证明了一件事：海量标注数据不一定是一个必要的前提条件。利用时序的一致性，算法可以从数据本身学习到时空结构，这在那些标注成本极高的领域（野生动物研究、稀有动物行为学等）尤其具有革命性意义。

不过，这项技术也存在明显的局限。首先，UDMT目前只能追踪动物的位置中心点，而非多个关键点（如头部、四肢等）。对于一些需要精细姿态分析的研究，这还不够。其次，当应用于不同物种或实验条件时，团队建议重新训练专用模型------这意味着它的泛化能力仍有上限。

团队在论文结尾提出了一个令人兴奋的展望方向：设计一个基于大规模数据集预训练的基础模型，实现「通用型多动物关键点追踪和行为图谱绘制」。如果这一愿景成真，未来的行为神经科学可能只需要一台摄像机和一段视频，就能解密复杂的动物社交密码。

在动物行为学从「描述」走向「量化」的今天，最大的瓶颈不是设备，不是算法，而是数据标注。当一只果蝇与另一只果蝇擦肩而过，当一条斗鱼开始追逐同伴，当一群小鼠挤作一团时------这些看似混乱的集体行为中，究竟隐藏着怎样的神经密码？而UDMT这类无需标注的追踪工具，又能否成为解锁这些密码的那把钥匙？欢迎留言分享你的思考。