【TAPIR】任意点跟踪:逐帧初始化+时序精炼的两阶段点追踪架构深度解析TAPIR(Tracking Any Point with per-frame Initialization and temporal Refinement)由Google DeepMind提出,是一个能够在视频中跟踪任意物理表面点的模型。其核心设计是两阶段管线:第一阶段通过全局匹配逐帧独立初始化候选轨迹,第二阶段通过局部相关性的时序深度卷积网络迭代精炼。在TAP-Vid benchmark上,TAPIR在DAVIS数据集上实现~20% AJ绝对提升(61.3 vs PIPs 42.0),同时比PIPs快