多模态大模型--音频&文本

音频信息

声学

音频编解码技术 的目标是，通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下，即使音频被压缩，我们听到的声音与原版也应该没有任何区别。

Opus是一个多才多艺的音频编解码器，它适用于各种应用，从视频会议（比如 Google Meet）到在线视频流（比如 YouTube）。Opus支持的压缩比率非常灵活，从每秒6千比特到每秒510千比特都可以。

EVS，是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率，从每秒5.9千比特到每秒128千比特。使用Opus和EVS，我们能在中低比特率（每秒12-20千比特）下得到很高的音频质量，但是如果比特率太低（比如每秒小于3千比特），音质就会显著下降。

FBank特征：固定长

30s的音频wav文件 -> Fbank 特征: 形状为（3000，80）

MFCC特征:变长

MFCC特征的维度通常为26维或36维，具体取决于是否计算一阶和二阶差分。

在较常见的情况下，MFCC特征的维度包括12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分，总共26维。‌

在更详细的分析中，36维的MFCC特征包括前12维是标准MFCC特征，表征语音信息的静态特性；13～24维是一阶MFCC差分谱，反映语音的动态特性；25～36维是二阶MFCC差分谱，也是反映语音的动态特性。‌

Conformer

Conformer: Local Features Coupling Global Representations for Visual Recognition

Soundstrem:

An end-to-end neural audio codec,google, IEEE ACM Trans. Audio Speech Lang,2022

Encodec:

High Fidelity Neural Audio Compression,meta AI,2022

Speech tokenizer:

Unified Speech Tokenizer for Speech Large Language Models, fudan, 2024

语义

Wav2vec:

facebook, 2020， A Framework for Self-Supervised Learning of Speech Representations

输入是音频，输出是音素表示

Hubert

facebook,2021, Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

输入是音频，输出是音素表示

WavLM

Microsoft, 2021, Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

输入是音频，输出是音素表示

WavLM模型是一种基于HuBERT框架构建的预训练模型，专门用于处理语音任务。该模型的设计重点在于语音内容的建模和发言人身份的保持。

WavLM采用了Denoising Masked Speech Modeling（去噪掩蔽语音建模）的预训练方案。这种方法通过掩盖部分语音数据并尝试预测这些被掩盖的部分来进行训练，从而增强模型对语音内容的理解能力。

此外，WavLM还引入了双编码器结构，这种结构使得模型能够更好地处理语音数据中的复杂信息，并提高模型的鲁棒性。双编码器的使用也是为了优化模型在不同语音任务上的表现，使其能够更加灵活地适应不同的应用场景。

在技术实现上，WavLM还采用了提示感知LoRA权重适配器，这是一种通过两阶段课程学习方法进行优化的技术，可以帮助模型更好地理解和生成语音内容。

Wav-bert

2021，Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition

输入是音频，经过wav2vec, 输出是音素表示

Whisper

openai，2022，Robust Speech Recognition via Large-Scale Weak Supervision
Google USM: 2023，Scaling Automatic Speech Recognition Beyond 100 Languages

输入是音频mel谱，输出有音频vec, 解码获得文本

TTS

AudioLM

a language modeling approach to audio generation.[Google]

Hifi-GAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

HiFi-GAN是一个常用的vocoder（声码器），可以将Mel谱（通常由前序模型产生）转换为高质量的wav波形。其包括一个生成器和两个判别器（MPD多周期判别器、MSD多尺度判别器）。

VALL_E

VALL_E：Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

它利用了从现有神经音频编解码模型中导出的离散编码进行训练的神经编解码语言模型。与以前的方法不同，VALL-E将TTS视为条件语言建模任务，而不是连续信号回归任务。

在预训练阶段，模型在规模显著扩大的英语语音数据集上进行训练，该数据集规模达到60,000小时，比之前类似系统使用的数据量大数百倍。这种大规模的训练使VALL-E能够发展出上下文学习能力。

VALL-E的一个显著特点是，它能够仅使用未见过的说话者的3秒录音作为声学提示，就能合成高质量的个性化语音。实验结果表明，VALL-E在语音自然度和说话者相似性方面优于最先进的零样本TTS系统。

此外，VALL-E还能够在合成过程中保留声学提示中说话者的情感和环境。

SpeechGPT

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

SpeechGPT: 他们利用隐藏单元 BERT (HuBERT) 作为离散单元提取器，用于将连续语音转换为离散单元，使用 Meta AI LLaMA 模型作为 LLM，使用 HiFi-GAN 作为单元声解码器

SeamlessM4T: Meta AI, 涵盖 100 种语言、音频的各种翻译任务

SpeechX: 一种多功能架构，能够在噪声和干净的语音条件下执行各种语音转换任务

Adapter

1 :全连接层：

参考 LLASM：Large Language and Speech Model

2 :卷积网络、MLP:

参考 BLSP：Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing

3 Q-former:

参考 SALMONN: Speech Audio Language Music Open Neural Network

4 没有：直接训练Audio encoder，

参考 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

应用

Audiolm

SoundStream + w2v-BERT + PaLM(PaLM-2)

用于语音和文本的多模态生成模型，能够理解和生成语音

SALMONN

Audio Encoder：BEATs、Whisper

Adapter model：Q-former

Encoder：LLM，Vicuna 13B(LLaMA)