Speaker Tracking SOTA 文章翻译

AV-A-PF

Abstract

在室内环境中跟踪多个移动说话者的问题受到了广泛关注。早期的技术完全基于单一模态，例如视觉。最近，多模态信息的融合已被证明在提高跟踪性能以及在像遮挡这样的具有挑战性情况下的鲁棒性方面发挥了重要作用（由于摄像机视野的限制或其他说话者造成的遮挡）。然而，数据融合算法常常受到传感器测量中的噪声干扰，这会导致不可忽视的检测错误。在这里，我们提出了一种结合音频和视觉数据的新方法。我们利用音频源的到达方向角来重塑传播步骤中粒子的典型高斯噪声分布，并在测量步骤中加权观测模型。这种方法通过解决与粒子滤波器（PF）相关的典型问题得到了进一步改进，其效率和准确性通常取决于状态估计和粒子传播中使用的粒子数量和噪声方差。在常规PF实现中，这两个参数都是预先指定并保持固定的，这在实践中使跟踪器不稳定。为了解决这些问题，我们设计了一个算法，根据跟踪误差和粒子在图像中占据的区域来适应粒子数量和噪声方差。在数据集上的实验表明，我们提出的方法与基线PF方法和现有的自适应PF算法相比，在跟踪被遮挡的说话者方面具有明显优势，显著减少了粒子数量。

Conclusion

我们提出了一种新颖的音频-视觉跟踪算法，该算法利用音频信息来调整粒子的传播过程以及分配给粒子的权重。我们所提出的算法已经在单一和多说话人场景中进行了测试，并且在说话者被其他人遮挡或处于摄像机视野之外的情况下，与仅使用视觉的粒子滤波器（V-PF）方法相比，展现出了显著提升的跟踪性能。我们展示了通过利用音频信息，我们可以在保持良好跟踪性能的同时，显著减少所需的粒子数量。这种方法有潜力解决由于粒子数量减少而导致的权重退化和粒子多样性缺失问题。

作为对我们所提算法的增强，我们还提出了一种新的自适应粒子滤波器（A-PF）算法，它结合了音频和视觉信息来动态调整粒子数量和噪声方差。我们的AV-A-PF算法同样在单一和多说话人场景中进行了测试，并与固定粒子数量的滤波器和现有的自适应粒子滤波器算法进行了比较。实验结果表明，我们提出的算法能够有效地跟踪移动的说话者，并且在减少粒子数量的同时不增加跟踪误差，从而增强了跟踪的鲁棒性。

尽管我们提出的算法在说话人跟踪和最优粒子数量估计方面具有优势，但也有一些限制和局限性需要指出。首先，我们的算法假设使用的麦克风阵列是圆形的。其次，跟踪中使用的音频信息是基于声源到达方向（DOA），因此在将DOA投影到二维图像平面时需要相应的校准信息。第三，我们假设要跟踪的说话者是活跃的，能够提供DOA信息。这些假设或限制可能会影响算法在其他场景或数据集上的泛化能力。然而，通过对我们的算法进行一些调整，也可以将其应用于这些情况。例如，如果将我们提出的跟踪系统中使用的音频定位算法替换为基于线性麦克风阵列的定位方法，并结合麦克风校准信息，那么所提出的系统也可以适用于"CLEAR"、"AMI"或"SPEVI"等数据集。如果数据集中没有麦克风的校准信息，只要可以通过可靠的自校准算法获得校准信息，所提出的系统仍然可以使用。

总结来说，我们首先通过结合音频信息和视觉粒子滤波器来减少跟踪所需的粒子数量，然后将音频-视觉粒子滤波器转换为音频-视觉自适应粒子滤波器，以提高跟踪的准确性和鲁棒性。与我们提出的算法相关的局限性可能是未来研究的有趣方向。

AV3D

Abstract

我们提出了一种用于3D说话人跟踪的音频-视觉融合算法，该算法基于一个由摄像头和小型麦克风阵列组成的本地化多模态传感器平台。在从各个模态中提取音频-视觉线索后，我们使用粒子滤波框架中的可靠性来适应性地融合它们。音频信号的可靠性是基于每个帧上最大全局相干场（GCF）峰值来测量的。视觉可靠性基于颜色直方图匹配，将检测结果与RGB空间中的参考图像进行比较。在AV16.3数据集上的实验表明，所提出的自适应音频-视觉跟踪器在跟踪准确性方面优于单独的各个模态和具有固定参数的经典方法。

Introduction

使用本地化（共位）多模态传感器平台跟踪目标对于自主导航机器人和人机交互是理想的。移动说话者是目标的一种重要类型，可以使用音频[1]或视频[2]进行跟踪，也可以通过融合这两种模态来利用音频和视频信号的互补性[3]。然而，在不断变化的环境中，适当地动态加权每种模态仍然是一个开放的研究问题。

目标状态可以通过机载传感器在不同的状态空间中估计，例如地面平面用于路径规划[4]，图像平面用于面部识别[5]以及三维世界坐标用于导航或抓取[6]。在三维空间中定位目标提供了分析目标以及机器人与环境之间交互的重要信息。然而，只有少数工作解决了使用本地化传感器平台跟踪说话者的问题[7][8]。

卡尔曼滤波器（KF）可以用于在假设高斯噪声和线性状态函数的情况下，用于在地面平面上进行后期音频-视觉融合以跟踪说话者[9]。从不同摄像机视图检测到的面部位置和到达方向（DoA）估计可以并入扩展卡尔曼滤波器（EKF）以更新目标三维位置的估计[10]。粒子滤波器（PF）[11]适用于非线性模型，以融合多传感器数据进行跟踪。音频处理中的DoA信息可以协助视频在图像平面上联合说话者分离和跟踪[12]。同样，DoA估计可以映射到图像平面上，以限制和更新来自视频的说话者轨迹[13]。主要限制是当声学环境恶化时，这种方法的性能会显著下降，因为这种方法将视觉跟踪的粒子投影到估计的DoA线上。此外，这种跟踪仅在图像平面上操作。使用高斯混合模型（GMM）的概率分数验证三个Viola-Jones检测器的面部候选，以减少误报。

摄像机校准信息有助于从视频中估计目标的三维位置，这与使用相位变换的广义交叉相关（GCC-PHAT）方法生成的到达时间差（TDOA）估计相结合，用于PF中的音频-视觉三维位置更新[14]。多个麦克风阵列和摄像机可以分布在房间周围，以联合跟踪说话者的三维位置和头部方向[15]。计算RGB直方图用于视觉可能性，与基于GCC-PHAT的TDOA估计的音频可能性融合。表1显示了音频-视觉说话者跟踪的最新方法的比较。

在本文中，我们提出了一个PF，它使用共位圆形麦克风阵列和标准摄像机估计移动说话者的方位角、仰角和半径。我们使用全局相干场（GCF，也称为SRP-PHAT[21]）峰值和颜色直方图之间的Bhattacharyya距离来调整音频-视觉线索的权重。所提出的音频-视觉融合算法可以独立于机器人平台实现，不使用环境传感器。所提出的三维音频-视觉说话者跟踪器的框图如图1所示。

Conclusion

我们提出了一个基于粒子滤波器（PF）的框架，用于利用来自圆形麦克风阵列和标准摄像机的音频-视觉信号进行3D说话人跟踪。我们在后期融合阶段分别对音频和视频信息的可靠性进行加权，使用颜色直方图距离对图像进行处理，使用全局相干场（GCF）峰值对音频进行处理。结果表明，3D跟踪精度有所提高，这表明在机器人技术中分别测量信息可靠性水平（r）对于自适应3D目标跟踪的潜在可行性。

所提出方法的主要限制是半径估计不准确（错误的主要原因）。我们将利用机器人平台的移动性来解决这一关键问题。另一个限制是我们仍然需要在自适应融合中设置一些参数的值，这使得我们的方法对环境变化的鲁棒性较差。因此，我们未来的工作将集中在使用移动平台，在嘈杂环境下通过自适应音频-视觉融合提高3D说话人跟踪的准确性和鲁棒性。

2LPF

Abstract

在三维空间中进行音频-视觉说话人跟踪是一个具有挑战性的问题。尽管基于经典粒子滤波的方法在音频-视觉说话人跟踪中显示出了有效性，但当测量受到噪声干扰时，性能会大幅下降。为此，提出了一种新型的双层粒子滤波器，用于三维音频-视觉说话人跟踪。

首先，在音频层和视觉层中分别从音频和视频流生成两组粒子，并独立传播。然后，在音频和视觉可能性中结合自适应Sigmoid函数，该函数可以根据两种模态的置信度调整粒子权重。最后，从两组粒子中选择一个最优粒子集，以确定说话人的位置，并在下一帧中重置粒子位置。在AV16.3数据库上的实验表明，我们的方法在三维空间和图像平面上都优于使用单一模态的跟踪器和现有的方法。

Introduction

在过去数十年中，利用音频-视觉信息进行说话人跟踪由于其在智能监控、人机交互和智能空间等领域的广泛应用而受到广泛关注[1]。传统的视觉跟踪器容易受到遮挡、摄像机视野限制和光照变化的影响[2-4]，而声音源跟踪器则可能受到背景噪声、房间混响和说话间歇性等问题的干扰[5-7]。因此，迫切需要一种能够充分利用音频和视觉信息互补性的多模态融合跟踪方法。

音频-视觉说话人跟踪最流行的方法之一是粒子滤波器（PF），它适用于非线性状态空间模型，以融合来自多个传感器的数据[8]。然而，受噪声影响的音频和视觉测量值往往会对融合算法造成不可忽视的误差[9]。因此，主要任务是有效地结合不同的传感器数据流，并在复杂动态环境中为每种模态适当地分配权重。在联合观测模型中，通过各自可能性的乘法来融合音频、形状和空间结构的观测结果[10]。到达方向（DOA）的估计被投影到图像平面上，并通过在DOA线周围重新定位粒子并根据它们与DOA线的距离重新计算权重，将视觉跟踪器与音频数据结合起来[9]。在[11]中，视觉和声学观测的归一化概率通过一个基于相位变换的广义交叉相关（GCC-PHAT）方法动态调整的自适应权重因子相加。

此外，大多数现有方法主要集中在图像平面上跟踪说话人[9,12-14]，而不是确定他们在现实世界坐标系中的位置，因为计算准确的三维坐标需要更复杂的传感器配置、容易出错的视差计算和三角测量。在立体视觉系统中，粒子群优化（PSO）被用来通过校准的立体摄像机系统和三角测量获得三维投影[15]。通过假设已知肩膀宽度和摄像机校准信息，将图像平面上的近似目标位置映射到三维世界坐标[16,17]。然而，这种类型的方法的主要限制是不准确的半径估计。

粒子滤波器（PF）的主要步骤包括预测（传播）、更新（测量）和估计。当前大多数音视频跟踪的公式在测量层面融合数据。在本文中，构建了一种新型的双层粒子滤波器（2-LPF），它在测量和决策层面融合音频和视频信息。在2-LPF中，两个PF分别独立地用于处理音频和视频流，在音频层和视觉层中操作。首先，两组粒子以相同的权重初始化，并在各自的坐标系中传播。这种分层结构确保了粒子的多样性。其次，使用自适应Sigmoid函数结合音频和视觉可能性来更新粒子权重。这样，2-LPF能够根据两种模态的置信度自适应地调整粒子权重。最后，选择一个最优的粒子集合来估计说话人的三维位置，并在下一帧中重置粒子的位置。

Conclusion

本文提出了一种新颖的双层粒子滤波器，用于利用音频-视觉信息进行3D说话人跟踪。分层结构增加了粒子多样性，并在更新和重置步骤中实现了特征融合和决策融合。自适应Sigmoid似然能够以其强大的表示能力更好地平衡两种模态的可靠性。因此，所提出的融合似然的2-LPF在对比方法中表现更佳。特别是，构建了一个最优粒子集来重置粒子位置，这确保了粒子的有效性。所提出的跟踪器在包括在视野外、不面对摄像机或快速移动等具有挑战性的情况下的单说话人序列上进行了测试。实验结果表明，所提出的方法能够以高精度在3D空间以及图像平面上跟踪说话人，并超越了使用单一模态和现有方法的跟踪器。

MPT

Abstract

多模态融合已被证明是一种提高说话人跟踪准确性和鲁棒性的有效方法，特别是在复杂场景中。然而，如何结合异构信息并利用多模态信号的互补性仍然是一个挑战性问题。

在本文中，我们提出了一种新颖的多模态感知跟踪器（MPT），用于利用音频和视觉模态进行说话人跟踪。具体来说，首先构建了一个基于时空全局相干场（stGCF）的新颖声学图，用于异构信号融合，该方法采用摄像机模型将音频线索映射到与视觉线索一致的定位空间。然后引入了一个多模态感知注意力网络，用于派生感知权重，这些权重衡量了受噪声干扰的间歇性音频和视频流的可靠性和有效性。此外，提出了一种独特的跨模态自监督学习方法，通过利用不同模态之间的互补性和一致性来模拟音频和视觉观测的置信度。实验结果表明，所提出的MPT在标准和遮挡数据集上分别达到了98.6%和78.3%的跟踪准确率，这证明了其在不利条件下的鲁棒性，并超越了当前的最先进方法。

Introduction

说话人跟踪是智能系统实现行为分析和人机交互的基础任务。为了提高跟踪器的准确性，利用多模态传感器来捕获更丰富的信息（Kılıç和Wang，2017）。在这些传感器中，听觉和视觉传感器因其作为人类理解周围环境和与他人互动的主要感官而受到研究者的广泛关注。类似于人类多模态感知的过程，整合听觉和视觉信息的优势在于它们可以提供必要的补充线索（Xuan等人，2020）。与单一模态相比，利用视听信号的互补性有助于提高跟踪的准确性和鲁棒性，特别是在处理诸如目标遮挡、摄像机视野有限、照明变化和房间混响等复杂情况时（Katsaggelos，Bahaadini和Molina，2015）。此外，当一种模态的信息缺失，或两种模态都无法提供可靠的观测时，多模态融合显示出独特的优势。因此，开发一种能够融合异构信号并处理间歇性嘈杂视听数据的多模态跟踪方法是至关重要的。

当前的说话人跟踪方法通常基于概率生成模型，因为它们能够处理多模态信息。代表性的方法是粒子滤波器（PF），它可以递归地近似非线性和非高斯系统中跟踪目标的滤波分布。基于PF实现，音频源的到达方向（DOA）角投影到图像平面上，以重塑粒子的典型高斯噪声分布，并增加DOA线附近粒子的权重（Kılıç等人，2015）。提出了一个双层PF，通过层次结构实现视听源的特征融合和决策融合（Liu，Li和Yang，2019）。此外，使用面部检测器来几何估计目标的3D位置，以协助声学图的计算（Qian等人，2021）。然而，这些方法更倾向于使用单一模态的检测结果来协助另一模态以获得更准确的观测，而忽略了充分利用视听信息的互补性和冗余性。此外，大多数现有的视听跟踪器使用生成算法（Ban等人，2019; Schymura和Kolossa，2020; Qian等人，2017），这些算法难以适应目标外观的随机和多样化变化。再者，基于颜色直方图或欧几里得距离的似然计算容易受到观测噪声的干扰，这限制了融合似然的性能。

为了解决这些限制，我们提出采用注意力机制来衡量多种模态的置信度，这决定了融合算法的有效性。提出的构想受到人类大脑对多模态感觉信息的感知机制的启发，通过两个关键步骤整合数据并优化决策：估计各种来源的可靠性并根据可靠性对证据进行加权（Zhang等人，2016）。以直观经验为例：在嘈杂和光线充足的环境下确定说话者的位置时，我们主要使用眼睛；相反，在安静和昏暗的情况下，我们依赖声音。基于这种现象，我们提出了一种多模态感知注意力网络，模拟能够从多种模态选择性捕获有价值事件信息的人类感知系统。图1描述了所提出的网络的工作过程，其中前两行显示了视听模态的互补性和一致性。在第三行中，图像帧被人工掩模遮挡，以显示当视觉模态不可靠时听觉模态的补充效果。与现有的端到端模型不同，专用网络专注于感知来自不同模态的观测可靠性。然而，感知过程通常是抽象的，使得手动标记定量标签变得困难。由于声音和视觉的自然对应关系，为视听学习提供了必要的监督（Hu等人，2020）（Afouras等人，2021）。因此，我们设计了一种跨模态自学习方法，利用多模态数据的互补性和一致性生成感知的权重标签。

神经网络已广泛用于多模态融合任务，以视听语音识别（AVSR）为代表（Baltrušaitis，Ahuja和Morency，2018）。然而，除了目标检测和特征提取等预处理工作外，神经网络很少被引入到多模态跟踪中。这是因为跟踪任务中的正样本在初始帧中是随机目标，导致缺乏数据来训练高性能分类器。因此，使用注意力网络专门训练中间感知组件为这个问题提供了一个全新的方法。另一个原因是视听数据的异质性使得在网络的早期阶段难以实现统一。因此，我们提出了时空全局相干场（stGCF）图，它通过摄像机模型的投影算子将音频线索映射到图像特征空间。为了生成融合图，通过网络估计的感知权重对集成的视听线索进行加权。最后，采用了一个改进的基于PF的跟踪器，使用融合图确保多模态观测的平滑跟踪。

所有这些组件构成了我们的多模态感知跟踪器（MPT），实验结果表明所提出的MPT取得了显著优于当前最先进方法的结果。

总结来说，本文的贡献如下： • 提出了一种新颖的跟踪架构，称为多模态感知跟踪器（MPT），用于具有挑战性的音频-视觉说话人跟踪任务。此外，我们首次提出了一种新的多模态感知注意力网络，用于估计多模态数据中观测的置信度和可用性。 • 提出了一种新的声学图，称为stGCF图，它利用摄像机模型建立音频和视觉定位空间之间的映射关系。得益于视听模态的互补性和一致性，进一步引入了一种新的跨模态自学习方法。 • 在标准和遮挡数据集上的实验结果证明了所提出方法的优越性和鲁棒性，特别是在嘈杂条件下。

Conclusion

在本文中，我们提出了一种新颖的多模态感知跟踪器，用于具有挑战性的音频-视觉说话人跟踪任务。我们还提出了一种新的多模态感知注意力网络和一种新的声学图提取方法。所提出的跟踪器利用多种模态之间的互补性和一致性，以自监督的方式学习不同模态之间观测的可用性和可靠性。广泛的实验表明，所提出的跟踪器优于当前的最先进技术，特别是在不利条件下表现出足够的鲁棒性。最后，中间过程被可视化，以展示所提出跟踪器网络的可解释性。

Tracker

Abstract

最近，使用共位音频-视觉传感器进行3D说话人跟踪受到了广泛关注。尽管已经尝试了各种方法，但由于共位传感器的位置被限制在一个小区域内，要获得可靠的3D跟踪结果仍然是一个挑战。在本文中，提出了一种基于粒子滤波器（PF）的新型方法，用于3D音频-视觉说话人跟踪。与传统基于PF的音频-视觉说话人跟踪方法相比，我们的3D音频-视觉跟踪器有两个主要特点。在预测阶段，我们使用当前帧的音频-视觉信息在粒子状态转移过程后进一步调整粒子的方向，这可以使粒子更集中于说话人的方向。在更新阶段，通过融合视觉距离和音频-视觉方向信息来计算粒子的可能性。特别地，根据摄像机投影模型和说话人面部或头部大小的自适应估计，获得距离可能性，而方向可能性则由音频-视觉粒子拟合度决定。通过这种方式，粒子可能性能更好地表示3D空间中说话人存在的概率。实验结果表明，所提出的跟踪器性能优于其他方法，并在3D空间和图像平面上都提供了良好的说话人跟踪性能。

Introduction

3D音频-视觉说话人跟踪对于人机交互、视频会议和自动场景分析等广泛应用至关重要[1]，[2]。由于能够充分利用两种模态的互补性[3]，最近吸引了大量研究关注。当说话人超出摄像机视野（FoV）时，音频的全向特性[4]--[6]将展现其优势；但当说话人处于高噪声和混响的声学条件下时，视觉信息将作为更稳健的位置线索。尽管使用音频和视觉位置信息具有很大优势，但由于传感器位置被限制在一个小空间内，在紧凑平台上使用共位音视频传感器进行说话人跟踪仍然具有挑战性。迫切需要一种使用共位传感器的3D音频-视觉说话人跟踪方法。

在过去几十年中，已经提出了许多音频-视觉说话人跟踪方法，如基于粒子群优化（PSO）的方法[7]，[8]，卡尔曼滤波器（KF）或扩展卡尔曼滤波器（EKF）的方法[9]--[11]，以及基于粒子滤波器（PF）的方法[12]，[13]。与PSO或KF方法相比，PF方法对非线性/非高斯过程更加稳健[14]，因此在音频-视觉说话人跟踪中得到了广泛应用[15]--[20]。基于PF的方法使用一组随机粒子来估计目标的后验密度，包括预测和更新阶段。通常，在预测阶段，使用预定义的动态模型来模拟说话人的运动。然而，由于说话人运动的不确定性，状态转移模型可能无法准确匹配。在这种情况下，粒子将移动到可能性值低的位置，这将加剧粒子权重退化并增加跟踪误差[21]。此外，在更新阶段，由于传感器位置的限制，观测可能变得困难甚至丢失。例如，在[16]，[17]中，使用面部检测算法和摄像机投影模型来估计说话人的距离，但当说话人不面向摄像机时，无法获得距离信息。

在本文中，我们提出了一种新颖的基于PF的方法，使用共位单目摄像机和小麦克风阵列捕获的信号进行3D说话人跟踪。首先，使用两步重定位方法调整粒子方向，依次实现音频方位角重定位和音视频方位角-俯仰角重定位。它可以增加粒子的收敛性并提高跟踪精度。其次，结合面部检测方法和摄像机投影模型来估计说话人的距离信息，当面部检测失败时，使用自适应颜色直方图匹配方法作为补充。然后，在粒子3D可能性中考虑视觉距离信息和音视频粒子拟合度，可以提供更可靠的说话人存在概率。最后，通过整合一系列加权粒子来估计3D说话人位置。实验结果表明，我们的方法在3D空间中的音频-视觉说话人跟踪方面具有优越性。

Conclusion

本文提出了一种新颖的基于粒子滤波器的方法，用于利用共位单目摄像头和麦克风阵列进行3D音频-视觉说话人跟踪。音频方位角重定位和音视频方位角-俯仰角重定位依次执行，目的是使粒子在说话人方向上更加集中。面部检测结合所提出的自适应颜色直方图匹配方法可以在说话人在视觉FoV（视场）内时提供连续的说话人距离信息。利用距离和方向可能性获得可靠的3D粒子可能性，这可以更好地代表3D空间中说话人存在的概率。实验结果表明，所提出的方法能够充分利用音视频模态，准确跟踪3D空间以及图像平面上的说话人。未来的工作将专注于使用共位音视频传感器跟踪多个说话人。