Deep Audio-Visual Speech Recognition论文阅读

2018.12

1.摘要

background

问题: 唇读(Lip Reading)即仅通过视觉信息识别说话内容,是一项极具挑战性的任务,主要因为存在"同音异义词"(homophones),即不同的字符可能产生相同的唇部动作 。

现状: 以前的工作主要集中在识别有限数量的单词或短语上。

目标: 本文旨在解决"开放世界"(open-world)的唇读问题,即识别自然语言句子,以及在自然场景视频(in the wild)中进行视听语音识别(Audio-Visual Speech Recognition, AVSR)。

innovation

模型对比: 比较了两种基于 Transformer 自注意力架构的模型:一种使用 CTC 损失,另一种使用序列到序列(Seq2Seq)损失 。

互补性研究: 研究了唇读在多大程度上可以作为音频语音识别的补充,特别是在音频信号嘈杂的情况下 。

新数据集: 发布了一个新的大规模视听数据集 LRS2-BBC,包含数千个来自英国电视的自然句子 。

  1. 方法 Method

Pipeline (整体流程):

系统由两个模态的输入流(视频 V 和 音频 A)组成。每个模态首先通过各自的前端(Front-end)提取特征,然后通过编码器(Encoder),最后根据模型变体(CTC 或 Seq2Seq)进行融合和解码,输出字符序列 101010101010101010。

详细模块:

  1. 输入与特征提取:

视频输入 (V): 采样率为 25fps,裁剪嘴部区域 (112 \\times 112) 11。

视频前端 (Visual Module): 基于时空卷积(Spatio-temporal output)。使用 3D 卷积(滤波器宽度为5帧)处理序列,随后接 2D ResNet 逐渐减小空间维度。输出为每个视频帧对应一个 512维的特征向量 12121212。

音频输入 (A): 采样率为 16kHz。计算 Log-spectrograms(40ms 窗长,10ms 步长)。

音频特征: 将音频特征按 4 帧一组进行拼接,以匹配视频的帧率(40ms/帧),保持时间尺度一致 13131313。

  1. 通用编码器 (Common Encoder):

每个模态(V 和 A)分别有一个独立的 Transformer 编码器。

由多层多头自注意力(Multi-head Self-Attention)和前馈网络组成。使用正弦位置编码注入序列顺序信息 14141414。

  1. 模型变体 (Model Variants):

TM-seq2seq (Transformer Seq2Seq):

这是一个编码器-解码器结构。

融合方式: 解码器的每一层都有两个独立的注意力机制,分别关注视频编码和音频编码。产生的上下文向量 V_cA_c 在通道维度拼接后输入前馈层 15。

Loss: Cross-Entropy Loss。

TM-CTC (Transformer CTC):

融合方式: 直接将视频和音频的编码输出在通道维度拼接,然后通过一堆自注意力块处理 16。

输出: 每一帧输出字符概率。

Loss: CTC Loss。

  1. 外部语言模型 (External LM):

使用一个字符级的 LSTM 语言模型(4层,每层1024个单元)。

在推理由波束搜索 (Beam Search) 结合 LM 分数进行解码(Shallow Fusion)17171717。

输入输出总结:

输入: 视频帧序列(嘴部图像) + 音频频谱图序列。

输出: 字符序列(Character level,包括26个字母、数字、空格等)18。

  1. 实验 Experimental Results

数据集: 主要使用 LRS2-BBC (新发布,来自BBC节目)和 LRS3-TED(来自TED演讲)。

主要实验结论:

  1. 纯唇读 (Lips only):

TM-seq2seq 表现最好。在 LRS2-BBC 测试集上达到 48.3% WER(词错误率),比之前的 SOTA(70.4%)提升了超过 20% 。

结论:Seq2Seq 模型在仅有视频输入时,能利用解码器的隐式语言模型能力,效果优于 CTC。

  1. 视听识别 (Audio-Visual):

在干净音频下,加入视觉信息能微弱提升性能(从 10.1% 降至 8.2%)。

在噪声环境下 (Noisy Audio): 视觉信息的加入至关重要。当音频信噪比低(0dB babble noise)时,纯音频模型崩溃,而视听模型依然稳健。

结论:TM-CTC 在视听任务中(特别是噪声下)表现略好于 Seq2Seq,且训练更稳定 。

  1. 非同步测试 (Out-of-sync):

TM-seq2seq 由于对音频和视频有独立的注意力机制,对音画不同步(人工偏移几帧)具有天然的抵抗力,微调后几乎不受影响 。

  1. 总结 Conclusion

Take home message: 在深度学习语音识别中,视觉模态(唇读)是音频的强大补充,尤其是在嘈杂环境中。对于开放世界的句子级唇读,基于 Transformer 的 Seq2Seq 架构是当时的最佳选择;而对于视听融合任务,基于 CTC 的 Transformer 架构则在抗噪性和效率上表现出色。

相关推荐
有Li4 小时前
泛用型nnUNet脑血管周围间隙识别系统(PINGU)|文献速递-医疗影像分割与目标检测最新技术
论文阅读·深度学习·文献·医学生
墨绿色的摆渡人4 小时前
论文笔记(一百一十三)3D Gaussian Splatting for Real-Time Radiance Field Rendering
论文阅读
森诺Alyson20 小时前
前沿技术借鉴研讨-2025.12.23(荟萃分析/信号提取/轻量级模型)
论文阅读·人工智能·经验分享·论文笔记·论文讨论
有Li1 天前
MIRAGE:针对嘈杂环境鲁棒性的医学图像-文本预训练|文献速递-医疗影像分割与目标检测最新技术
论文阅读·人工智能·深度学习·计算机视觉·文献·医学生
EchoL、1 天前
【论文阅读】HiDDeN:Hiding Data With Deep Networks
论文阅读·笔记·机器学习
张较瘦_1 天前
[论文阅读] 远程工作中的“隐形障碍”:残障开发者在软件开发团队的挑战与破局之道
论文阅读·远程工作
CoookeCola1 天前
M.I.O: Interactive Intelligence for Digital Humans(交互式智能数字人)
论文阅读·人工智能·aigc·音视频
张较瘦_1 天前
[论文阅读] AI + 硬件开发 | 硬件设计新范式:LLM赋能行为驱动开发,解决验证痛点的实战方案
论文阅读·人工智能·驱动开发
m0_650108242 天前
MindDrive:融合世界模型与视觉语言模型的端到端自动驾驶框架
论文阅读·自动驾驶·轨迹生成与规划·世界动作模型·e2e-ad·vlm导向评估器·minddrive