简单介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

主要介绍SpeechPrompt、SpeechPrompt V2、SpeechGen

SpeechPrompt

模型结构和原理(语音到符号)

  1. 整体思路:音频特征提取(HuBert/CPC),离散--》deep prompt + speechLM(GSLM)---》概率映射-->目标
  2. Verbalizer选择根据概率统计,优于随机
  3. deep prompt优于input prompt
  4. 参数量:uLM 参数量为151M;prompt参数和长度有关系,分类任务长度较短,参数少,生成任务长度长,参数量大,例如l=180时,参数为4.5M
  5. 音频特征提取:HuBert效果好于CPC

适合任务

适合任务:语音分类任务,序列生成任务均可,但不能生成音频(效果不太好)。比如关键词识别,意图分类,ASR,槽位填充。但实际上,针对ASR、SF效果并不好,原因是GSLM有限,不适合这种输出长度很长的任务,语音分类任务又些效果还可以。

SpeechPrompt V2

模型结构和原理(语音到符号)

  1. 整体思路:音频特征提取(HuBert),离散--》deep prompt + speechLM(GSLM/pGSLM)---》线性映射-->目标 SpeechPrompt
  2. V2的加强版,主要改进有两点。第一:speech LM可以选择GSLM和它的升级版pGSLM,多了韵律信息;第二:概率映射改为了线性学习映射。另外呢,这篇文章主要关注分类任务,多了更多的分类任务的数据、训练和试验。
  3. 参数量:uLM 参数量为151M;prompt参数和长度有关系,分类任务长度较短,参数少,例如l=5时,参数为0.128M

适合任务

适合任务:语音分类任务。比如语音命令词识别、意图分类、语言识别、机器人声识别、情感识别、口音识别、讽刺识别、性别识别、VAD。但并不是在所有任务上,提出的模型效果就好,在有些任务上比传统的finetune的好,有些持平,有些不如传统模型效果。

SpeechGen

模型结构和原理(语音到语音)

  1. 整体思路:音频特征提取(HuBert),离散--》deep prompt + speechLM(mBART)-->vocoder解码--〉语音
  2. mBART是encoder-decoder结构的,在使用prompt时encoder和decoder都添加;
  3. 训练参数只有prompt的参数
  4. 参数量:prompt参数l=200时,参数为10M

适合任务

适合任务:语音生成任务。比如语音翻译、语音修复、语音预测等。效果可能受限于speech LM。期待有更好的Speech LM,框架同样适用,效果会更好。现在这种离散化的方式对语音信息有损失。

相关推荐
佚明zj5 分钟前
全卷积和全连接
人工智能·深度学习
qzhqbb3 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨3 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041083 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌4 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭4 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^4 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246665 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k5 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫5 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法