多模态大模型--音频&文本

音频信息

声学

音频编解码技术 的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。

Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。

EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。使用Opus和EVS,我们能在中低比特率(每秒12-20千比特)下得到很高的音频质量,但是如果比特率太低(比如每秒小于3千比特),音质就会显著下降。

FBank特征:固定长

30s的音频wav文件 -> Fbank 特征: 形状为(3000,80)

MFCC特征:变长

MFCC特征的维度通常为26维或36维,具体取决于是否计算一阶和二阶差分。

在较常见的情况下,MFCC特征的维度包括12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分,总共26维。‌

在更详细的分析中,36维的MFCC特征包括前12维是标准MFCC特征,表征语音信息的静态特性;13~24维是一阶MFCC差分谱,反映语音的动态特性;25~36维是二阶MFCC差分谱,也是反映语音的动态特性。‌

Conformer

Conformer: Local Features Coupling Global Representations for Visual Recognition

Soundstrem:

An end-to-end neural audio codec,google, IEEE ACM Trans. Audio Speech Lang,2022

Encodec:

High Fidelity Neural Audio Compression,meta AI,2022

Speech tokenizer:

Unified Speech Tokenizer for Speech Large Language Models, fudan, 2024

语义

Wav2vec:

facebook, 2020, A Framework for Self-Supervised Learning of Speech Representations

输入是音频,输出是音素表示

Hubert

facebook,2021, Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

输入是音频,输出是音素表示

WavLM

Microsoft, 2021, Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing

输入是音频,输出是音素表示

WavLM模型是一种基于HuBERT框架构建的预训练模型,专门用于处理语音任务。该模型的设计重点在于语音内容的建模和发言人身份的保持。

WavLM采用了Denoising Masked Speech Modeling(去噪掩蔽语音建模)的预训练方案。这种方法通过掩盖部分语音数据并尝试预测这些被掩盖的部分来进行训练,从而增强模型对语音内容的理解能力。

此外,WavLM还引入了双编码器结构,这种结构使得模型能够更好地处理语音数据中的复杂信息,并提高模型的鲁棒性。双编码器的使用也是为了优化模型在不同语音任务上的表现,使其能够更加灵活地适应不同的应用场景。

在技术实现上,WavLM还采用了提示感知LoRA权重适配器,这是一种通过两阶段课程学习方法进行优化的技术,可以帮助模型更好地理解和生成语音内容。

Wav-bert

2021,Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition

输入是音频,经过wav2vec, 输出是音素表示

Whisper

openai,2022,Robust Speech Recognition via Large-Scale Weak Supervision
Google USM: 2023,Scaling Automatic Speech Recognition Beyond 100 Languages

输入是音频mel谱,输出有音频vec, 解码获得文本

TTS

AudioLM

a language modeling approach to audio generation.[Google]

Hifi-GAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

HiFi-GAN是一个常用的vocoder(声码器),可以将Mel谱(通常由前序模型产生)转换为高质量的wav波形。其包括一个生成器和两个判别器(MPD多周期判别器、MSD多尺度判别器)。

VALL_E

VALL_E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

它利用了从现有神经音频编解码模型中导出的离散编码进行训练的神经编解码语言模型。与以前的方法不同,VALL-E将TTS视为条件语言建模任务,而不是连续信号回归任务。

在预训练阶段,模型在规模显著扩大的英语语音数据集上进行训练,该数据集规模达到60,000小时,比之前类似系统使用的数据量大数百倍。这种大规模的训练使VALL-E能够发展出上下文学习能力。

VALL-E的一个显著特点是,它能够仅使用未见过的说话者的3秒录音作为声学提示,就能合成高质量的个性化语音。实验结果表明,VALL-E在语音自然度和说话者相似性方面优于最先进的零样本TTS系统。

此外,VALL-E还能够在合成过程中保留声学提示中说话者的情感和环境。

SpeechGPT

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities

SpeechGPT: 他们利用隐藏单元 BERT (HuBERT) 作为离散单元提取器,用于将连续语音转换为离散单元,使用 Meta AI LLaMA 模型作为 LLM,使用 HiFi-GAN 作为单元声解码器

SeamlessM4T: Meta AI, 涵盖 100 种语言、音频的各种翻译任务

SpeechX: 一种多功能架构,能够在噪声和干净的语音条件下执行各种语音转换任务

Adapter

1 :全连接层:

参考 LLASM:Large Language and Speech Model

2 :卷积网络、MLP:

参考 BLSP:Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing

3 Q-former:

参考 SALMONN: Speech Audio Language Music Open Neural Network

4 没有:直接训练Audio encoder,

参考 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

应用

Audiolm

SoundStream + w2v-BERT + PaLM(PaLM-2)

用于语音和文本的多模态生成模型,能够理解和生成语音

SALMONN

Audio Encoder:BEATs、Whisper

Adapter model:Q-former

Encoder:LLM,Vicuna 13B(LLaMA)

相关推荐
鬓白方悟少年非2 小时前
在国产芯片上实现YOLOv5/v8图像AI识别-【4.1】RK3588训练数据时进行图像增强更多内容见视频
人工智能·yolo·音视频
lxzlife4 小时前
ffmpeg各模块常用组件源码位置
ffmpeg·音视频
aqi006 小时前
FFmpeg开发笔记(五十)聊聊几种流媒体传输技术的前世今生
ffmpeg·音视频·直播·流媒体
青山渺渺9 小时前
Android CCodec Codec2 (五)C2Param - Ⅲ
android·音视频·多媒体·codec2·openmax·ccodec
不想迷路的小男孩14 小时前
android 14及android15 READ_EXTERNAL_STORAGE跟相册,视频权限的适配
android·音视频·android版本特性
EasyCVR17 小时前
安防监控/软硬一体/视频汇聚网关EasyCVR硬件启动崩溃是什么原因?
音视频·h.265·视频监控·监控视频接入
TSINGSEE1 天前
WebRTC协议下的视频汇聚融合技术:EasyCVR视频技术构建高效视频交互体验
服务器·音视频·webrtc·视频监控技术·网络视频监控系统
崎山小鹿1 天前
视频和音频合成视频Easy_Wav2Lip
人工智能·神经网络·音视频
Geeker551 天前
[知识技巧] iPhone 15 卡在恢复模式修复方法
macos·ios·智能手机·音视频·cocoa·软件工程·iphone
aqi001 天前
FFmpeg开发笔记(四十九)助您在毕业设计中脱颖而出的几个流行APP
ffmpeg·音视频·直播·流媒体