SSVOD 基础知识

SSOD的主流技术框架围绕 "自训练""一致性正则化""协同训练" 三大思路展开，其中自训练应用最广泛，三者相互补充，提升模型性能。

自训练核心流程：先用少量标注数据训练"教师模型"和"学生模型"，再用教师模型对无标注数据预测生成带置信度的伪标签，筛选高置信度伪标签与标注数据结合，训练"学生模型"，多轮迭代优化两者性能。
一致性正则化：通过数据增强等方式，约束模型对同一数据的预测结果保持一致，挖掘无标注数据信息。

为没有标签的数据生成伪标签，选出可靠的伪标签和已经有标签的数据一起喂给模型学习。
假设你正在尝试教会计算机区分猫和狗的照片，但只有少数照片是打上了"猫"或"狗"的标签，大部分照片都没有标签。这时候，半监督学习就闪亮登场了，它是一种使用大量未标注主数据和少量标注数据进行学习的方法，旨在提高学习效率和准确性。

增强类型	适用对象	具体操作	核心原则	设计目的
弱增强	教师模型（Teacher）	1. 轻微缩放变换 2. 随机水平翻转 3. 轻微亮度调整	不改变图像结构，保持目标形状清晰完整	为教师模型提供高质量输入，确保生成准确可靠的伪标签
强增强	学生模型（Student）	1. 随机遮挡（CutOut/CutMix） 2. 大幅度颜色抖动 3. 高斯模糊	对图像进行严重变换，引入多样化干扰	迫使学生模型学习更鲁棒的特征，提升泛化能力和抗干扰性

基于EMA更新教师模型的公式如下：

θema=α⋅θema+(1−α)⋅θstudent\theta_{ema} = \alpha \cdot \theta_{ema} + (1 - \alpha) \cdot \theta_{student}θema=α⋅θema+(1−α)⋅θstudent

其中 α 通常取值接近 1，如 0.999、0.9999，（接近于1）意味着 Teacher 更新得很慢，保持稳定。

对于视频来说，情况会更复杂，新增了时间这一维度，每一视频帧都有时间关联性。而且标注工作会更复杂，(例如一个10秒的视频(30帧/秒)就是300帧，如一果每帧都要人工标注几十个框，那成本是纯图像检测的几十倍。)
从图像检测扩展到视频检测，我们可以用类似想法只标注少量帧 (比如每个视频标几帧)，利用大量未标注帧的视觉与时间信息，让模型自己学习其他帧的检测规律。

黄色是已经标注的关键帧，红色是模型自己在剩余帧预测的结果。相邻帧中的检测结果应该一致。
如果模型在帧t检测到熊猫，那么在帧t+1也应该在相似位置检测则到它；用光流(Optical Flow)或跟踪算法(Tracking)将前一帧目标位置传播到下一帧，强制模型的勺输出在这种传播前后保持一致。利用这样的跟踪思想来为更多的见频帧生成伪标签可以大大减少算力。