简单介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

主要介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

SpeechPrompt

模型结构和原理(语音到符号)

  1. 整体思路:音频特征提取(HuBert/CPC),离散--》deep prompt + speechLM(GSLM)---》概率映射-->目标
  2. Verbalizer选择根据概率统计,优于随机
  3. deep prompt优于input prompt
  4. 参数量:uLM 参数量为151M;prompt参数和长度有关系,分类任务长度较短,参数少,生成任务长度长,参数量大,例如l=180时,参数为4.5M
  5. 音频特征提取:HuBert效果好于CPC

适合任务

适合任务:语音分类任务,序列生成任务均可,但不能生成音频(效果不太好)。比如关键词识别,意图分类,ASR,槽位填充。但实际上,针对ASR、SF效果并不好,原因是GSLM有限,不适合这种输出长度很长的任务,语音分类任务又些效果还可以。

SpeechPrompt V2

模型结构和原理(语音到符号)

  1. 整体思路:音频特征提取(HuBert),离散--》deep prompt + speechLM(GSLM/pGSLM)---》线性映射-->目标 SpeechPrompt
  2. V2的加强版,主要改进有两点。第一:speech LM可以选择GSLM和它的升级版pGSLM,多了韵律信息;第二:概率映射改为了线性学习映射。另外呢,这篇文章主要关注分类任务,多了更多的分类任务的数据、训练和试验。
  3. 参数量:uLM 参数量为151M;prompt参数和长度有关系,分类任务长度较短,参数少,例如l=5时,参数为0.128M

适合任务

适合任务:语音分类任务。比如语音命令词识别、意图分类、语言识别、机器人声识别、情感识别、口音识别、讽刺识别、性别识别、VAD。但并不是在所有任务上,提出的模型效果就好,在有些任务上比传统的finetune的好,有些持平,有些不如传统模型效果。

SpeechGen

模型结构和原理(语音到语音)

  1. 整体思路:音频特征提取(HuBert),离散--》deep prompt + speechLM(mBART)-->vocoder解码--〉语音
  2. mBART是encoder-decoder结构的,在使用prompt时encoder和decoder都添加;
  3. 训练参数只有prompt的参数
  4. 参数量:prompt参数l=200时,参数为10M

适合任务

适合任务:语音生成任务。比如语音翻译、语音修复、语音预测等。效果可能受限于speech LM。期待有更好的Speech LM,框架同样适用,效果会更好。现在这种离散化的方式对语音信息有损失。

相关推荐
Master_oid几秒前
机器学习44:线性回归进阶篇②
人工智能·机器学习·线性回归
xier_ran17 分钟前
【infra之路】阶段二 · 模块一:GPU 架构与显存层级
人工智能·架构
lzp079120 分钟前
从机器翻译到智驾:规则派的黄昏与数据革命的终局 (伍)
人工智能·自然语言处理·机器翻译
weixin_4684668522 分钟前
支持向量机新手实战指南
人工智能·python·算法·机器学习·支持向量机
lzp079123 分钟前
从机器翻译到智驾:规则派的黄昏与数据革命的终局 (叁)
人工智能·自然语言处理·机器翻译
夕小瑶30 分钟前
Claude Code 保姆级上手教程(2026 版)
人工智能·python
心态与习惯1 小时前
人工智能对管理科学与工程科研的冲击
人工智能·科研·读博·冲击·管科
sinat_286945191 小时前
gitnexus vs graphify
人工智能
Ztopcloud极拓云视角1 小时前
Claude Opus 4.8 实战接入指南:动态工作流 + 思考投入控制深度使用
大数据·人工智能·gpt·claude·deepseek
cxr8281 小时前
高分子复合材料 AI 逆向设计合—— 认知基座与理论框架
人工智能·材料逆向设计合成