技术栈

bigvgan

救救孩子把
5 小时前
tts·bigvgan
BigVGAN:探索 NVIDIA 最新通用神经声码器的前沿什么是 BigVGAN? BigVGAN 是 NVIDIA 发布的一种通用神经声码器(universal neural vocoder),它使用 GAN(生成对抗网络)架构将梅尔频谱图转换为高保真音频波形。在 ICLR 2023 上发表,训练参数规模高达 1.12 亿(112M),训练仅用 LibriTTS 的干净语音数据,但在零样本条件(即生成未见过的说话人、语言、音乐、环境音等音频)上表现卓越。
我是有底线的