Multimodal Cross-Domain Few-Shot Learning for Egocentric Action RecognitionMM-CDFSL是一个针对第一人称动作识别、使用跨域小样本学习的模型,它的核心创新点体现在多模态协同学习与跨域动态推理机制的深度融合。该方法首次将光流、手部姿态热图等多模态教师模型的知识蒸馏引入RGB学生模型,通过未标注目标域数据实现跨模态特征对齐,使单模态推理模型能够继承多源信息对光照、背景变化的鲁棒性。针对第一人称视频中时空冗余信息的高计算成本问题,设计了一种管状动态掩码策略,在训练阶段随机遮蔽输入序列的时空块以模拟真实场景信息缺失,同时在推理阶段通过集成多组掩码预测结果补偿性能损失,实现了计算效率与