简单介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

weixin_438703902024-03-09 9:11

主要介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

SpeechPrompt

模型结构和原理（语音到符号）

整体思路：音频特征提取(HuBert/CPC)，离散--》deep prompt + speechLM（GSLM）---》概率映射-->目标
Verbalizer选择根据概率统计，优于随机
deep prompt优于input prompt
参数量：uLM 参数量为151M；prompt参数和长度有关系，分类任务长度较短，参数少，生成任务长度长，参数量大，例如l=180时，参数为4.5M
音频特征提取：HuBert效果好于CPC

适合任务

适合任务：语音分类任务，序列生成任务均可，但不能生成音频(效果不太好)。比如关键词识别，意图分类，ASR，槽位填充。但实际上，针对ASR、SF效果并不好，原因是GSLM有限，不适合这种输出长度很长的任务，语音分类任务又些效果还可以。

SpeechPrompt V2

模型结构和原理（语音到符号）

整体思路：音频特征提取(HuBert)，离散--》deep prompt + speechLM（GSLM/pGSLM）---》线性映射-->目标 SpeechPrompt
V2的加强版，主要改进有两点。第一：speech LM可以选择GSLM和它的升级版pGSLM，多了韵律信息；第二：概率映射改为了线性学习映射。另外呢，这篇文章主要关注分类任务，多了更多的分类任务的数据、训练和试验。
参数量：uLM 参数量为151M；prompt参数和长度有关系，分类任务长度较短，参数少，例如l=5时，参数为0.128M

适合任务

适合任务：语音分类任务。比如语音命令词识别、意图分类、语言识别、机器人声识别、情感识别、口音识别、讽刺识别、性别识别、VAD。但并不是在所有任务上，提出的模型效果就好，在有些任务上比传统的finetune的好，有些持平，有些不如传统模型效果。

SpeechGen

模型结构和原理（语音到语音）

整体思路：音频特征提取(HuBert)，离散--》deep prompt + speechLM（mBART）-->vocoder解码--〉语音
mBART是encoder-decoder结构的，在使用prompt时encoder和decoder都添加；
训练参数只有prompt的参数
参数量：prompt参数l=200时，参数为10M

适合任务

适合任务：语音生成任务。比如语音翻译、语音修复、语音预测等。效果可能受限于speech LM。期待有更好的Speech LM，框架同样适用，效果会更好。现在这种离散化的方式对语音信息有损失。

上一篇：macos m1 arm芯片使用jpype报错 FileNotFoundError: [Errno 2] JVM DLL not found

下一篇：android pdf框架-6,文本生成pdf

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践