51c视觉~合集50

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14240547

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

.....

#xxx

...

#xxx

...

#xxx

....

#xxx

...

#xxx

...

#xxx

....

#xxx

...

#xxx

....

#xxx

...

#xxx

...

#xxx

....

#xxx

...

#xxx

...

#UniSOT

中国科大提出UniSOT:统一多模态单目标跟踪新范式,性能显著提升

今天,xx想和大家分享一篇来自中国科学技术大学和Sangfor Research Institute的最新研究,这篇论文已被 TPAMI 接收,提出了一种名为 UniSOT 的统一框架,旨在解决多模态单目标跟踪(Single Object Tracking, SOT)领域的长期挑战。 UniSOT 这个名字,顾名思义,就是"Unified Single Object Tracking"的缩写,它代表着一种全新的、能够同时处理多种参考模态和视频模态的统一跟踪器。

  • 论文标题: UniSOT: A Unified Framework for Multi-Modality Single Object Tracking
  • 论文作者: Yinchao Ma, Yuyang Tang, Wenfei Yang, Tianzhu Zhang*, Xu Zhou, and Feng Wu (*通讯作者)
  • 作者机构: 中国科学技术大学;Sangfor Research Institute
  • 论文地址: https://arxiv.org/abs/2511.01427
  • 录用信息 : 该论文已被 TPAMI 接收

研究背景与动机

在单目标跟踪任务中,我们通常需要根据给定的参考信息来追踪视频序列中的特定目标。随着应用场景的日益复杂,对跟踪器的要求也越来越高。一方面,用户可能通过不同的方式来指定目标,例如直接给出目标的边界框(BBOX),或者用自然语言(NL)描述目标,甚至两者结合(NL+BBOX)。另一方面,视频数据本身也变得多样化,除了常见的RGB图像,还可能包含深度信息(RGB+Depth)、热成像信息(RGB+Thermal)或者事件流信息(RGB+Event),这些辅助模态在光照不足、遮挡等复杂环境下能显著提升跟踪的鲁棒性。

然而,目前大多数现有的跟踪器都是为特定的参考模态或视频模态设计的。这意味着,如果我们要处理不同类型的输入或不同模态的视频,就需要开发或部署多个独立的模型,这无疑增加了开发和部署的复杂性。

图1. 现有解决方案与UniSOT的对比。传统跟踪器通常针对特定模态定制,而UniSOT旨在提供一个统一的框架。

作者认为,设计这样一个统一的跟踪器主要面临两大挑战:

  1. 如何为多样的参考模态设计一个统一的跟踪模型? 不同参考模态(视觉框和自然语言)之间存在巨大的语义鸿沟,这给特征提取器的一致性学习和预测头(Box Head)的稳定目标定位带来了困难。
  2. 如何为多样的视频模态设计一个统一的训练策略? 不同的辅助视频模态(深度、热成像、事件流)包含的信息量和特性各不相同,如何设计一个统一的微调机制,既能学习到跨视频模态的对齐特征,又能保留各自模态的特有线索,是一个难题。

为了解决上述问题,研究人员提出了 UniSOT 框架。

UniSOT 的核心技术原理

UniSOT 的核心思想是构建一个统一的跟踪器,能够以统一的参数同时处理三种参考模态和四种视频模态。它主要由两个核心设计构成:一个是针对参考模态统一的设计,另一个是针对视频模态统一的设计。

UniSOT 整体框架图

针对参考模态的统一设计

为了统一处理不同的参考模态,UniSOT 设计了一个 参考通用的特征提取器(Reference-Generalized Feature Extractor) 和一个 参考自适应的预测头(Reference-Adaptive Box Head, RABH)

1. 参考通用的特征提取器

这个特征提取器基于Transformer构建,巧妙地解决了多模态特征学习、融合与对齐的问题。

统一跟踪框架示意图

  • 分层特征提取与融合:它包含N个浅层Encoder和M个深层Encoder。在浅层,视觉(图像)和语言特征被分开独立提取,避免了在低层次特征建模时产生混淆;在深层,两者才进行融合,以实现高层语义的交互。
  • 任务导向的多头注意力(TMHA) :为了在联合训练时兼容不同的参考输入(比如有时只有BBOX,没有NL),UniSOT 引入了注意力掩码机制,屏蔽掉那些与当前任务无关的特征交互。
  • 多模态对比损失(MMCLoss):为了解决视觉和语言之间的语义鸿沟,作者设计了一个目标级别的对比损失。它通过拉近不同参考模态(视觉/语言)的语义Token与搜索区域中目标特征的相似度,同时推远与背景(特别是硬背景,即干扰物)特征的相似度,从而将视觉和语言特征对齐到统一的语义空间,并增强了参考特征的判别力。

多模态对比损失(MMCLoss)示意图

2. 参考自适应的预测头(RABH)

传统的预测头对于不同的参考模态输入,处理方式是固定的,这可能导致定位结果不稳定。为此,RABH 被设计成一个动态的头部,它能根据不同的参考信息,自适应地从视频上下文中挖掘场景特征来辅助定位。

参考自适应预测头(RABH)示意图

其核心是一个新颖的 基于分布的交叉注意力机制 。该机制能够从历史帧(上下文)中自适应地挖掘出 目标(Target)干扰物(Distractor)背景(Background) 三种特征。具体来说,它首先计算参考模态的语义Token与历史帧中所有Patch的相似度,然后根据一个预设的阈值 β,将与目标外观相似但非目标的Patch识别为"干扰物",其余的则为"背景"。这样,通过对比学习的方式,利用动态更新的目标、干扰物和背景原型来进行目标定位,大大提升了在复杂场景下的稳定性和鲁棒性。

针对视频模态的统一设计

在完成了对RGB序列上不同参考模态的统一后,UniSOT 进入第二训练阶段,以统一处理多种视频模态(RGB+Depth, RGB+Thermal, RGB+Event)。其核心是 秩自适应模态适配(Rank-Adaptive Modality Adaptation, RAMA) 机制。

辅助模态调整块(AMTB)示意图

RAMA 的设计灵感来源于AdaLoRA,它通过在预训练好的模型中注入增量权重(∆ = PΛQ)的方式来适配新的视频模态,而不是微调整个模型。

  • 参数共享与模态对齐:所有辅助模态共享正交矩阵P和Q,这有助于学习跨视频模态的对齐特征。
  • 秩自适应与模态特定:每个辅助模态拥有自己独立的奇异值矩阵Λ(即ΛD, ΛT, ΛE),并通过一个重要性评估函数来动态地为不同层、不同模块、不同模态的增量参数分配不同的秩(rank)。这意味着模型可以自动判断每个模态需要多少"特定信息",为信息量大的模态分配更高的秩,为信息量少的模态分配较低的秩,从而在学习模态共性特征的同时,保留了模态的个性特征,并有效防止了过拟合。

实验结果与分析

研究团队在 18 个基准上对 UniSOT 进行了广泛的实验评估,结果表明其性能显著优于那些为特定模态设计的现有方法。

参考模态统一的有效性

  • TNL2K 数据集上,UniSOT 在BBOX、NL、NL+BBOX三种参考模态下的AUC性能均超过了现有方法 3.0% 以上。
  • 消融实验(表10)证明,MMCLoss和RABH两个模块都带来了显著的性能提升。例如,在NL参考下,MMCLoss带来了2.3%的AUC提升,RABH带来了2.0%的AUC提升。

UniSOT中不同组件的消融实验

视频模态统一的有效性

  • RGB+Depth (VOT-RGBD22, DepthTrack), RGB+Thermal (LasHeR, RGBT234), 和 RGB+Event (VisEvent) 三类任务上,UniSOT 的主要指标比之前的统一模型 Un-Track 提升了 2.0% 以上。
  • 例如,在RGBT234数据集上,UniSOT-B 的MSR比Un-Track高出1.6% (64.1% vs 62.5%)。在VisEvent上,AUC高出1.8% (60.7% vs 58.9%)。

与SOTA RGBD跟踪器的比较

与SOTA RGBT跟踪器的比较

与SOTA RGBE跟踪器的比较

可视化分析

可视化结果也直观地证明了 UniSOT 的有效性。例如,RABH能够更稳定地定位目标,有效抑制干扰物;MMCLoss使得视觉和语言语义Token的响应图更加一致且具有判别力。

目标定位结果可视化显示

不同参考模态下的跟踪结果可视化

不同辅助模态下的跟踪结果可视化

总结与展望

UniSOT 的提出,无疑为多模态单目标跟踪领域带来了新的思路。它通过一系列精巧的设计,首次实现了一个能够以统一参数处理多种参考模态和视频模态的跟踪器,极大地提升了跟踪器的实用性和泛化能力。xx觉得,这种统一化的设计理念,不仅简化了模型部署,也为未来更复杂的跨模态感知任务提供了宝贵的经验。

...

#Co-Seg

医学图像分割新探索Co-Seg:相互提示引导的协同分割新范式,显著提升组织与细胞核分割精度

在数字病理学领域,精准地分割出组织区域与细胞核实例,对于肿瘤微环境分析和疾病诊断至关重要。然而,现有的方法往往将这两项任务割裂开来,忽略了它们之间内在的联系。最近,一篇来自林肯大学和耶鲁大学的研究者们提出的论文《Co-Seg: Mutual Prompt-Guided Collaborative Learning for Tissue and Nuclei Segmentation》,为我们带来了一种全新的协同分割范式。

研究背景:从"各自为战"到"协同作战"

数字病理图像分析中,组织分割(判断哪些区域属于肿瘤)和细胞核分割(识别出每一个单独的细胞核)是两大核心任务。传统的做法通常是:

  1. 独立分割: 为组织和细胞核分别训练两个完全独立的网络。
  2. 编码器共享: 采用共享的图像编码器提取通用特征,但解码器仍然是分离的,分别处理各自的任务。

这些方法虽然取得了一定的成功,但它们都忽视了一个关键点:组织结构和细胞核形态是高度相关的。准确识别细胞核能为理解组织结构提供线索,反之,清晰的组织边界也能帮助定位细胞核。正是基于这种洞察,作者提出了 Co-Seg 框架,旨在让两个任务"互相帮助",实现协同优化。

Co-Seg:相互提示引导的协同学习

Co-Seg 的核心思想是构建一个"共生"的分割范式,让组织(语义)分割和细胞核(实例)分割在学习过程中相互促进。整个框架由两大创新模块组成:区域感知提示编码器(Region-aware Prompt Encoder, RP-Encoder)相互提示掩码解码器(Mutual Prompt Mask Decoder, MP-Decoder)

区域感知提示编码器 (RP-Encoder)

这个模块的功能是为后续的精细化分割提供高质量的"提示"(Prompts)。它接收初步的分割结果(logits),并从中提取出代表组织区域和细胞核区域的"区域感知提示"。这些提示就像是先验知识,为解码器圈定了大致的目标范围,告诉它应该关注哪些区域。

相互提示掩码解码器 (MP-Decoder)

这是实现协同学习的关键。MP-Decoder 包含两个解码头,分别负责组织和细胞核的分割。与传统方法不同的是,它引入了"交叉引导"(Cross-guidance)机制:

  • 组织解码头 不仅利用自身的查询信息,还会接收来自 细胞核提示 的引导。
  • 同样,细胞核解码头 也会参考 组织提示 来进行优化。

通过这种方式,细胞核的上下文信息可以增强组织分割的一致性,而组织的边界反馈则为区分密集的细胞核提供了约束。两个任务不再是孤立的,而是在解码过程中不断进行信息交换和相互校正,最终共同计算出更精准的语义和实例分割掩码。

整个模型的输入是病理组织学图像,输出则是精确的组织分割图和细胞核实例分割图。

实验结果:性能显著提升

为了验证 Co-Seg 的有效性,研究者在 PUMA 数据集上进行了广泛的实验,并与当前最先进的方法进行了比较。

组织与细胞核分割性能

在组织语义分割任务上,Co-Seg 在 Dice 和 mIoU 指标上均取得了最佳性能,Dice 分数达到了 92.51% 。在更具挑战性的细胞核实例分割任务上,Co-Seg 的优势更为明显。相比次优的方法 PromptNucSeg,Co-Seg 在 F1-score 上提升了 3.23% ,在 AJI 指标上提升了 2.43%,达到了 69.14%。这表明 Co-Seg 不仅能找到更多的细胞核,而且分割得更准确。

从定性结果对比中可以直观地看到,Co-Seg 生成的组织边界更平滑、更精确,同时能准确地分割出密集的细胞核,并且假阳性(错误识别)更少。

消融实验

为了证明每个模块的有效性,作者进行了消融研究。实验结果表明,无论是协同分割范式(C)、区域感知提示编码器(P)还是相互提示解码器(D),每一个组成部分都对最终的性能提升做出了积极贡献,证明了整个框架设计的合理性与高效性。

总结

xx认为,这项工作巧妙地抓住了病理图像中不同尺度、不同任务间的内在关联性,通过设计精巧的相互提示机制,将这种关联性转化为了实实在在的性能增益。这种"协同优化"的思想,对于未来处理其他多任务、多目标的医学图像分析问题,也具有很好的启发意义。

...

相关推荐
金紫火1 小时前
美团CatPaw:一款AI驱动的编程工具解析
人工智能
996终结者2 小时前
深度学习从入门到精通(一):深度学习的分类
人工智能·深度学习·分类
长桥夜波2 小时前
【第二十一周】机器学习周报
人工智能·机器学习
GIOTTO情2 小时前
舆情处置技术深度解析:Infoseek 字节探索的 AI 闭环架构与实现逻辑
人工智能·架构
KG_LLM图谱增强大模型2 小时前
突破AI助手成本壁垒:知识图谱思维架构让小模型实现大性能
人工智能·架构·大模型·知识图谱·graphrag
喜欢吃豆2 小时前
[特殊字符] 深入解构 Assistants API:从“黑盒”抽象到“显式”控制的架构演进与终极指南
网络·人工智能·自然语言处理·架构·大模型
深圳南柯电子3 小时前
深圳南柯电子|医疗电子EMC整改:助医疗器械安全稳定的关键环节
网络·人工智能·安全·互联网·实验室·emc
张较瘦_3 小时前
[论文阅读] AI + 职业教育 | 从框架到实践:职业院校教师人工智能素养提升的完整方案
论文阅读·人工智能
得贤招聘官4 小时前
AI 重塑招聘格局,传统招聘模式面临转型挑战
人工智能