DeLoRes——一种通用的音频表征学习新方法(DeLoRes(基于 Barlow Twins 的冗余最小化方法)受计算机视觉领域自监督学习最新进展的启发,本文提出了 DeLoRes——一种通用的音频表征学习新方法。我们的主要目标是在资源受限(包括数据和计算资源)的条件下,使网络学习到能够泛化至多种下游任务的音频表征。受 Barlow Twins 目标函数的启发,我们提出学习对输入音频样本的各种失真具有不变性的嵌入表示,同时确保这些嵌入包含关于原始样本的非冗余信息。具体而言,我们对两个相同网络分别输入同一音频片段的不同失真版本,计算其输出之间的互相关矩阵,并使其尽可能接近单位矩阵。我们在自监督学习阶段仅使用了大规模