LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

文章目录

model arch

  • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 输入(连续特征):【input embedding, taskID】
  • 输出(离散特征):【output tokens】,task token在输入和输出矩阵中都有;(N + M + L) × D的结果,N-text_token;M:audio_token;L:task_token
  • 计算loss的时候,mask output token中的input token & task token;

AudioTokenizer

  • 16khz的音频通过卷积压缩为25hz(40ms);conv:[8, 5, 4, 2, 2],
  • 更多的RVQ改善语音质量,并且shallow quantizers中有更多的信息;
  • AudioTokenizer = encoder+1st quantizer,1st quantizer的输出是audio token,audio token只作为GPT的输出使用,输入是连续的embedding;剩余的量化器&decoder只在训练阶段使用;

model init

    • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 初始化是否真的有用处?
    • 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果,发现ASR/S2TT初始化有明显提升,SE任务初始化效果区别不大;
    • 使用的是NLP-LLM初始化,更多有助于文本生成任务;对于音频生成任务,可能用audio token训练过的会更有效;
相关推荐
Danceful_YJ2 小时前
35.微调BERT
人工智能·深度学习·bert
愿没error的x3 小时前
深度学习基础知识总结(一):深入理解卷积(Convolution)
人工智能·深度学习
咋吃都不胖lyh3 小时前
激活函数是什么,神经网络中为什么要有激活函数
人工智能·深度学习·神经网络·激活函数
_codemonster6 小时前
深度学习实战(基于pytroch)系列(五)线性回归的pytorch实现
pytorch·深度学习·线性回归
算法与编程之美6 小时前
探究pytorch中多个卷积层和全连接层的输出方法
人工智能·pytorch·深度学习·神经网络·cnn
化作星辰6 小时前
深度学习_神经网络中最常用的学习率优化算法
深度学习·神经网络·学习
PixelMind8 小时前
【IQA技术专题】 基于多模态大模型的IQA Benchmark:Q-BENCH
图像处理·深度学习·lmm·iqa
cyyt9 小时前
深度学习周报(11.3~11.9)
人工智能·深度学习
雍凉明月夜9 小时前
Ⅱ人工智能学习之深度学习(deep-learning)概述
人工智能·深度学习·学习
能来帮帮蒟蒻吗10 小时前
深度学习(3)—— 评估指标
人工智能·深度学习