多模态大模型--音频&文本

音频信息

声学

音频编解码技术 的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。

Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。

EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。使用Opus和EVS,我们能在中低比特率(每秒12-20千比特)下得到很高的音频质量,但是如果比特率太低(比如每秒小于3千比特),音质就会显著下降。

FBank特征:固定长

30s的音频wav文件 -> Fbank 特征: 形状为(3000,80)

MFCC特征:变长

MFCC特征的维度通常为26维或36维,具体取决于是否计算一阶和二阶差分。

在较常见的情况下,MFCC特征的维度包括12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分,总共26维。‌

在更详细的分析中,36维的MFCC特征包括前12维是标准MFCC特征,表征语音信息的静态特性;13~24维是一阶MFCC差分谱,反映语音的动态特性;25~36维是二阶MFCC差分谱,也是反映语音的动态特性。‌

Conformer

Conformer: Local Features Coupling Global Representations for Visual Recognition

Soundstrem:

An end-to-end neural audio codec,google, IEEE ACM Trans. Audio Speech Lang,2022

Encodec:

High Fidelity Neural Audio Compression,meta AI,2022

Speech tokenizer:

Unified Speech Tokenizer for Speech Large Language Models, fudan, 2024

语义

Wav2vec:

facebook, 2020, A Framework for Self-Supervised Learning of Speech Representations

输入是音频,输出是音素表示

Hubert

facebook,2021, Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

输入是音频,输出是音素表示

WavLM

Microsoft, 2021, Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

输入是音频,输出是音素表示

WavLM模型是一种基于HuBERT框架构建的预训练模型,专门用于处理语音任务。该模型的设计重点在于语音内容的建模和发言人身份的保持。

WavLM采用了Denoising Masked Speech Modeling(去噪掩蔽语音建模)的预训练方案。这种方法通过掩盖部分语音数据并尝试预测这些被掩盖的部分来进行训练,从而增强模型对语音内容的理解能力。

此外,WavLM还引入了双编码器结构,这种结构使得模型能够更好地处理语音数据中的复杂信息,并提高模型的鲁棒性。双编码器的使用也是为了优化模型在不同语音任务上的表现,使其能够更加灵活地适应不同的应用场景。

在技术实现上,WavLM还采用了提示感知LoRA权重适配器,这是一种通过两阶段课程学习方法进行优化的技术,可以帮助模型更好地理解和生成语音内容。

Wav-bert

2021,Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition

输入是音频,经过wav2vec, 输出是音素表示

Whisper

openai,2022,Robust Speech Recognition via Large-Scale Weak Supervision
Google USM: 2023,Scaling Automatic Speech Recognition Beyond 100 Languages

输入是音频mel谱,输出有音频vec, 解码获得文本

TTS

AudioLM

a language modeling approach to audio generation.Google

Hifi-GAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

HiFi-GAN是一个常用的vocoder(声码器),可以将Mel谱(通常由前序模型产生)转换为高质量的wav波形。其包括一个生成器和两个判别器(MPD多周期判别器、MSD多尺度判别器)。

VALL_E

VALL_E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

它利用了从现有神经音频编解码模型中导出的离散编码进行训练的神经编解码语言模型。与以前的方法不同,VALL-E将TTS视为条件语言建模任务,而不是连续信号回归任务。

在预训练阶段,模型在规模显著扩大的英语语音数据集上进行训练,该数据集规模达到60,000小时,比之前类似系统使用的数据量大数百倍。这种大规模的训练使VALL-E能够发展出上下文学习能力。

VALL-E的一个显著特点是,它能够仅使用未见过的说话者的3秒录音作为声学提示,就能合成高质量的个性化语音。实验结果表明,VALL-E在语音自然度和说话者相似性方面优于最先进的零样本TTS系统。

此外,VALL-E还能够在合成过程中保留声学提示中说话者的情感和环境。

SpeechGPT

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

SpeechGPT: 他们利用隐藏单元 BERT (HuBERT) 作为离散单元提取器,用于将连续语音转换为离散单元,使用 Meta AI LLaMA 模型作为 LLM,使用 HiFi-GAN 作为单元声解码器

SeamlessM4T: Meta AI, 涵盖 100 种语言、音频的各种翻译任务

SpeechX: 一种多功能架构,能够在噪声和干净的语音条件下执行各种语音转换任务

Adapter

1 :全连接层:

参考 LLASM:Large Language and Speech Model

2 :卷积网络、MLP:

参考 BLSP:Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing

3 Q-former:

参考 SALMONN: Speech Audio Language Music Open Neural Network

4 没有:直接训练Audio encoder,

参考 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

应用

Audiolm

SoundStream + w2v-BERT + PaLM(PaLM-2)

用于语音和文本的多模态生成模型,能够理解和生成语音

SALMONN

Audio Encoder:BEATs、Whisper

Adapter model:Q-former

Encoder:LLM,Vicuna 13B(LLaMA)

相关推荐
RTC实战笔记5 天前
Android 实时音视频接入教程:媒体补充增强信息(SEI)
音视频·媒体·rtc
潜创微科技6 天前
HDMI1.3 无线传输芯片方案 空旷 150 米量产级音视频方案
音视频
VidDown6 天前
VidDown 工具站:免费、本地优先的开发者工具箱
javascript·编辑器·音视频·视频编解码·视频
换个昵称都难6 天前
音频格式之WAV
音视频
AI创界者6 天前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
u152109648496 天前
S.S.Audio PRO A2音频隔离器
嵌入式硬件·音视频·实时音视频·视频编解码·视频
VidDown6 天前
显卡处理视频技术详解:从硬解码到 NVENC,GPU 如何让视频处理起飞?
javascript·编辑器·音视频·视频编解码·视频
EasyDSS6 天前
全能音视频平台/私有化音视频系统EasyDSS!直播/点播/会议/集群对讲一站式落地
音视频
Damon_X6 天前
车载音频复习
音视频
3DVisionary6 天前
告别数据中断:XTDIC-VG视频引伸计在金属疲劳测试中3个真实案例
人工智能·音视频·应用案例·xtdic-vg·视频引伸计·疲劳测试·实战复盘