LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

文章目录

model arch

  • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 输入(连续特征):【input embedding, taskID】
  • 输出(离散特征):【output tokens】,task token在输入和输出矩阵中都有;(N + M + L) × D的结果,N-text_token;M:audio_token;L:task_token
  • 计算loss的时候,mask output token中的input token & task token;

AudioTokenizer

  • 16khz的音频通过卷积压缩为25hz(40ms);conv:[8, 5, 4, 2, 2],
  • 更多的RVQ改善语音质量,并且shallow quantizers中有更多的信息;
  • AudioTokenizer = encoder+1st quantizer,1st quantizer的输出是audio token,audio token只作为GPT的输出使用,输入是连续的embedding;剩余的量化器&decoder只在训练阶段使用;

model init

    • text-embedding 用千问的模型参数初始化;AudioEncoder用asr-conformer的参数初始化;所有的参数都参与更新,除了CodecVocoder;
  • 初始化是否真的有用处?
    • 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果,发现ASR/S2TT初始化有明显提升,SE任务初始化效果区别不大;
    • 使用的是NLP-LLM初始化,更多有助于文本生成任务;对于音频生成任务,可能用audio token训练过的会更有效;
相关推荐
Genevieve_xiao1 天前
【dl】python基础 深度学习中需要用到的python基础
python·深度学习
和鲸社区1 天前
四大经典案例,入门AI算法应用,含分类、回归与特征工程|2025人工智能实训季初阶赛
人工智能·python·深度学习·算法·机器学习·分类·回归
七芒星20231 天前
ResNet(详细易懂解释):残差网络的革命性突破
人工智能·pytorch·深度学习·神经网络·学习·cnn
大千AI助手1 天前
线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略
人工智能·深度学习·大模型·模型训练·学习率·warmup·线性预热机制
진영_1 天前
深度学习打卡第N6周:中文文本分类-Pytorch实现
人工智能·深度学习
1373i1 天前
【Python】通俗理解反向传播
深度学习·算法·机器学习
CV-杨帆1 天前
大模型在题目生成中的安全风险研究综述
人工智能·深度学习·安全
补三补四1 天前
神经网络基本概念
人工智能·深度学习·神经网络
Python图像识别1 天前
63_基于深度学习的草莓病害检测识别系统(yolo11、yolov8、yolov5+UI界面+Python项目源码+模型+标注好的数据集)
python·深度学习·yolo
天下无敌笨笨熊1 天前
一些常用的激活函数及绘图
深度学习