STFT:解决音频-视频零样本学习 (ZSL) 中的挑战

传统的监督学习方法需要大量的标记训练实例来进行训练,视听零样本学习的任务是利用音频和视频模态对对象或场景进行分类，即使在没有可用标记数据的情况下。为了解决传统监督方法的限制，提出了广义零样本学习（Generalized Zero-Shot Learning, GZSL）的设置。GZSL方法允许模型识别和分类来自已见过和未见过类别的实例，从而为视听分类和识别任务提供了更实用和可扩展的解决方案。

尽管深度学习在最近几年取得了发展，视听零样本学习因其在多个领域的潜在应用而受到了显著关注，例如暴力检测、航空场景识别、语音识别和视频分类等。现有的大多数方法分别对输入的视听和文本模态进行建模和对齐，以获得更健壮的视听特征表示。然而，将SNNs（尖峰神经网络）与变换器（Transformers）结合起来，仍然面临着几个挑战：

时间步长：现有 SNN 通常使用固定时间步长来平均神经元输出，忽略了不同层在编码时间序列中的重要性，导致性能波动。
尖峰冗余：SNN 输出存在时间维度和空间维度上的冗余，与尖峰发射频率和神经元位置高度相关。
输出异质性：SNN 和 Transformer 的输出数据分布存在显著差异，SNN 为二进制尖峰序列，Transformer 为浮点特征，难以高效融合。

本文提出一种新的Spiking Tucker Fusion Transformer（STFT）用于视听零样本学习。STFT模型通过以下方式来提高性能：

时间步长因子（TSF）：动态衡量每个时间步对 SNN 输出的影响，指导后续推理信息的合成。
全局-局部池化（GLP）：结合最大池化和平均池化操作，引导输入膜电位的形成，减少尖峰噪声。
动态阈值调整：根据语义和时序信息动态调整神经元阈值，提高模型鲁棒性。
时序-语义 Tucker 融合：以低成本实现 SNN 和 Transformer 输出的多尺度融合，同时保持完全的二阶交互。

1 方法

++++STFT的架构由四个主要部分组成：空间-时间尖峰神经网络（SNN）、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。++++ 在训练阶段，训练集由标记的嵌入向量组成，目标是学习一个投影函数，将音频和视觉特征映射到类别级文本嵌入。在测试阶段，使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1 空间-时间尖峰神经网络（SNN）

卷积 SNN 块：使用卷积操作和 LIF 模型构建 SNN 网络，每个 SNN 块包含卷积层和 LIF 层。
全局-局部池化 (GLP)：将最大池化和平均池化操作相结合，提取全局和局部特征，并指导 LIF 神经元的输入特征分布。
时间步长因子 (TSF)：动态调整不同时间步长 SNN 输出的权重，使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
动态阈值调整：根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值，从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

音频和视觉编码器：使用预训练的 SeLaVi 模型提取音频和视觉特征，并进行进一步的特征提取和降维。
潜在语义推理模块：引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息，从而获得更鲁棒的跨模态特征表示。
LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征，并使用门控函数选择性地保留融合特征。
LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新，并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序 -语义 Tucker 融合

特征投影：将音频和视觉特征分别投影到嵌入向量，并进行二线性交互。
Tucker 分解：将二线性交互后的特征张量分解为多个因子矩阵，以降低模型参数数量并提高计算效率。
多尺度融合：利用 Tucker 分解后的因子矩阵进行多尺度融合，同时保留二阶交互信息。

1.4 联合推理模块

跨模态 Transformer：使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系，并捕获互补信息。
投影和重建层：将联合音频-视觉特征投影到与文本特征相同的嵌入空间，并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数，并选择了Adam作为训练优化器。STFT训练了60个周期，学习率为0.0001。为了更有效地更新参数，STFT使用了三元组损失、投影损失和重建损失的组合。

2 实验

在ZSL和GZSL设置下评估了所提出的模型。使用平均类别准确率来衡量模型在分类任务中的有效性。对于ZSL评估，特别关注模型在未见测试类别子集上的性能。在GZSL评估中，评估模型在包括已见（S）和未见（U）类别的整个测试集上的性能。通过计算和谐均值（HM），提供模型在GZSL场景下整体性能的平衡度量。

2.1 数据集

ActivityNet：目前的版本为v1.3，专注于视频中的活动检测和识别，包含丰富的活动类别和大量的视频时长。包括约20000个YouTube视频，其中训练集包含约10000个视频，验证集和测试集各包含约5000个视频。
UCF101：专注于动作识别，包含大量真实场景下的动作视频片段，适用于各种动作识别任务。包含超过 13,000 个视频，涵盖各种人类动作。
VGGSound：专注于音频分类和识别，包含丰富的视听样本，适用于音频视觉任务的模型训练和评估。包含超过 200 个类别和数千个音频片段。

2.2 实验结果

2.2.1 基于ActivityNet 数据集

HM 提升 14.9%：STFT 在 ActivityNet 数据集上取得了 15.38 的 HM分数，相比最佳现有方法 AVMST 的 12.71%，提升了 14.9%。
ZSL 提升 24.5%：STFT 在 ActivityNet 数据集上取得了 12.91 的 ZSL分数，相比最佳现有方法 AVMST 的 10.37%，提升了 24.5%。

备注：

AVMST模型是一种用于音频-视觉零样本学习的模态融合网络。具体来说，该模型包含以下几个关键组件：

脉冲神经网络（SNN）模块：用于提取每个模态的显著时间信息。
交叉注意力块：有效地融合时间和语义信息。
变换器推理模块：进一步探索融合特征之间的相互。

2.2.2 基于UCF101 数据集

HM 提升 3.9%：STFT 在 UCF101 数据集上取得了 32.58 的 HM分数，相比最佳现有方法 MDFT 的 31.36%，提升了 3.9%。
ZSL 略有下降：STFT 在 UCF101 数据集上取得了 29.72的 ZSL分数，相比最佳现有方法 MDFT 的 31.53%，略有下降。

2.2.3 基于VGGSound 数据集

HM 提升 15.4%：STFT 在 VGGSound 数据集上取得了 19.22 的 HM分数，相比最佳现有方法 TCaF 的 13.32%，提升了 15.4%。
ZSL 提升 35.9%：STFT 在 VGGSound 数据集上取得了 10.06%的 ZSL分数，相比最佳现有方法 TCaF 的 7.33%，提升了 35.9%。