LauraGPT

林林宋2024-01-09 8:52

git：https://github.com/alibaba-damo-academy/FunCodec

文章目录

- [model arch](#model arch)
- AudioTokenizer
- [model init](#model init)

model arch

text-embedding 用千问的模型参数初始化；AudioEncoder用asr-conformer的参数初始化；所有的参数都参与更新，除了CodecVocoder；
输入（连续特征）：【input embedding, taskID】
输出（离散特征）：【output tokens】,task token在输入和输出矩阵中都有；(N + M + L) × D的结果，N-text_token；M：audio_token;L:task_token
计算loss的时候，mask output token中的input token & task token；

AudioTokenizer

16khz的音频通过卷积压缩为25hz(40ms）；conv:[8, 5, 4, 2, 2],
更多的RVQ改善语音质量，并且shallow quantizers中有更多的信息；
AudioTokenizer = encoder+1st quantizer，1st quantizer的输出是audio token，audio token只作为GPT的输出使用，输入是连续的embedding；剩余的量化器&decoder只在训练阶段使用；

model init

- text-embedding 用千问的模型参数初始化；AudioEncoder用asr-conformer的参数初始化；所有的参数都参与更新，除了CodecVocoder；
初始化是否真的有用处？
- 附录B2对比了在ASR/S2TT/SE任务有无初始化的效果，发现ASR/S2TT初始化有明显提升，SE任务初始化效果区别不大；
- 使用的是NLP-LLM初始化，更多有助于文本生成任务；对于音频生成任务，可能用audio token训练过的会更有效；

上一篇：SLB、DMZ、Nginx、Ingress、Gateway、Kibana和Grafana

下一篇：Grafana UI 入门使用

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践