Deep Audio-Visual Speech Recognition论文阅读

2018.12

1.摘要

background

问题: 唇读(Lip Reading)即仅通过视觉信息识别说话内容,是一项极具挑战性的任务,主要因为存在"同音异义词"(homophones),即不同的字符可能产生相同的唇部动作 。

现状: 以前的工作主要集中在识别有限数量的单词或短语上。

目标: 本文旨在解决"开放世界"(open-world)的唇读问题,即识别自然语言句子,以及在自然场景视频(in the wild)中进行视听语音识别(Audio-Visual Speech Recognition, AVSR)。

innovation

模型对比: 比较了两种基于 Transformer 自注意力架构的模型:一种使用 CTC 损失,另一种使用序列到序列(Seq2Seq)损失 。

互补性研究: 研究了唇读在多大程度上可以作为音频语音识别的补充,特别是在音频信号嘈杂的情况下 。

新数据集: 发布了一个新的大规模视听数据集 LRS2-BBC,包含数千个来自英国电视的自然句子 。

  1. 方法 Method

Pipeline (整体流程):

系统由两个模态的输入流(视频 V 和 音频 A)组成。每个模态首先通过各自的前端(Front-end)提取特征,然后通过编码器(Encoder),最后根据模型变体(CTC 或 Seq2Seq)进行融合和解码,输出字符序列 101010101010101010。

详细模块:

  1. 输入与特征提取:

视频输入 (V): 采样率为 25fps,裁剪嘴部区域 (112 \\times 112) 11。

视频前端 (Visual Module): 基于时空卷积(Spatio-temporal output)。使用 3D 卷积(滤波器宽度为5帧)处理序列,随后接 2D ResNet 逐渐减小空间维度。输出为每个视频帧对应一个 512维的特征向量 12121212。

音频输入 (A): 采样率为 16kHz。计算 Log-spectrograms(40ms 窗长,10ms 步长)。

音频特征: 将音频特征按 4 帧一组进行拼接,以匹配视频的帧率(40ms/帧),保持时间尺度一致 13131313。

  1. 通用编码器 (Common Encoder):

每个模态(V 和 A)分别有一个独立的 Transformer 编码器。

由多层多头自注意力(Multi-head Self-Attention)和前馈网络组成。使用正弦位置编码注入序列顺序信息 14141414。

  1. 模型变体 (Model Variants):

TM-seq2seq (Transformer Seq2Seq):

这是一个编码器-解码器结构。

融合方式: 解码器的每一层都有两个独立的注意力机制,分别关注视频编码和音频编码。产生的上下文向量 V_cA_c 在通道维度拼接后输入前馈层 15。

Loss: Cross-Entropy Loss。

TM-CTC (Transformer CTC):

融合方式: 直接将视频和音频的编码输出在通道维度拼接,然后通过一堆自注意力块处理 16。

输出: 每一帧输出字符概率。

Loss: CTC Loss。

  1. 外部语言模型 (External LM):

使用一个字符级的 LSTM 语言模型(4层,每层1024个单元)。

在推理由波束搜索 (Beam Search) 结合 LM 分数进行解码(Shallow Fusion)17171717。

输入输出总结:

输入: 视频帧序列(嘴部图像) + 音频频谱图序列。

输出: 字符序列(Character level,包括26个字母、数字、空格等)18。

  1. 实验 Experimental Results

数据集: 主要使用 LRS2-BBC (新发布,来自BBC节目)和 LRS3-TED(来自TED演讲)。

主要实验结论:

  1. 纯唇读 (Lips only):

TM-seq2seq 表现最好。在 LRS2-BBC 测试集上达到 48.3% WER(词错误率),比之前的 SOTA(70.4%)提升了超过 20% 。

结论:Seq2Seq 模型在仅有视频输入时,能利用解码器的隐式语言模型能力,效果优于 CTC。

  1. 视听识别 (Audio-Visual):

在干净音频下,加入视觉信息能微弱提升性能(从 10.1% 降至 8.2%)。

在噪声环境下 (Noisy Audio): 视觉信息的加入至关重要。当音频信噪比低(0dB babble noise)时,纯音频模型崩溃,而视听模型依然稳健。

结论:TM-CTC 在视听任务中(特别是噪声下)表现略好于 Seq2Seq,且训练更稳定 。

  1. 非同步测试 (Out-of-sync):

TM-seq2seq 由于对音频和视频有独立的注意力机制,对音画不同步(人工偏移几帧)具有天然的抵抗力,微调后几乎不受影响 。

  1. 总结 Conclusion

Take home message: 在深度学习语音识别中,视觉模态(唇读)是音频的强大补充,尤其是在嘈杂环境中。对于开放世界的句子级唇读,基于 Transformer 的 Seq2Seq 架构是当时的最佳选择;而对于视听融合任务,基于 CTC 的 Transformer 架构则在抗噪性和效率上表现出色。

相关推荐
youcans_13 小时前
【DeepSeek论文精读】17. 通过可扩展查找的条件记忆:大语言模型稀疏化的新维度
论文阅读·人工智能·语言模型·长短时记忆网络·稀疏
Hash the Hacker15 小时前
国际软件工程大会 ICSE 2026 部分已接收论文集
论文阅读·软件工程
CV-杨帆19 小时前
论文阅读:arxiv 2026 Extracting books from production language models
论文阅读·人工智能
蓝田生玉1231 天前
BEVFormer论文阅读笔记
论文阅读·笔记
程途拾光1582 天前
中文界面跨职能泳道图制作教程 PC
大数据·论文阅读·人工智能·信息可视化·流程图
数说星榆1812 天前
在线简单画泳道图工具 PC端无水印
大数据·论文阅读·人工智能·架构·流程图·论文笔记
Ma0407132 天前
【论文阅读29】-通过强化学习进行智能故障诊断的无标记 RAG 增强型 LLM
论文阅读
大模型最新论文速读2 天前
RelayLLM:token 级大小模型接力加速推理
论文阅读·人工智能·深度学习·机器学习·自然语言处理
m0_650108242 天前
OpenEMMA:开源多模态端到端自动驾驶框架全解析
论文阅读·自动驾驶·vla·高效推理·端到端ad·openemma
c0d1ng3 天前
一月第二周周报(论文阅读)
论文阅读