Nvidia 推出最新 AI 音频模型,可制作前所未有的声音

英伟达新发布的"Fugatto"模型能够通过创新的合成方法和推理技术,生成各种从未存在过的声音,包括混合音乐、语音和其他声音。虽然模型尚未公开测试,但其展示了许多独特的音频效果,展示了其潜力。

数据决定成败

在一篇解释性研究论文中,超过十位英伟达的研究人员通过利用大型语言模型 (LLM) 生成 Python 脚本,以创建大量描述不同音频"个性"的模板化和自由格式指令。由于广泛开源的 Fugatto 音频数据集通常缺乏特征测量,研究人员借助现有音频理解模型,为训练剪辑创建"合成标签",并自动量化性别、情感和语音质量等特征。同时,他们还使用音频处理工具在声学层面描述和量化训练剪辑。

https://www.youtube.com/watch?v=qj1Sp8He6e4

在进行关系性比较时,研究人员依赖于在某一因素保持不变时另一个因素变化的数据集,例如相同文本的不同情感朗读。通过比较这些样本,模型能够学习哪些音频特征与"更快乐"的语音相关,或区分不同乐器的声音。

......更多详细细节请点击原文查看:Nvidia 推出最新 AI 音频模型,可制作前所未有的声音

相关推荐
IT古董9 分钟前
【漫话机器学习系列】259.神经网络参数的初始化(Initialization Of Neural Network Parameters)
人工智能·神经网络·机器学习
tyatyatya15 分钟前
神经网络在MATLAB中是如何实现的?
人工智能·神经网络·matlab
老翅寒暑34 分钟前
AI模型的回调能力的理解和实现
ai·大模型·本地小模型
Jackson@ML1 小时前
一分钟了解大语言模型(LLMs)
人工智能·语言模型·自然语言处理
让学习成为一种生活方式1 小时前
大麦(Hordeum vulgare)中 BAHD 超家族酰基转移酶-文献精读129
人工智能
思茂信息1 小时前
CST软件对OPERA&CST软件联合仿真汽车无线充电站对人体的影响
c语言·开发语言·人工智能·matlab·汽车·软件构建
墨绿色的摆渡人1 小时前
pytorch小记(二十):深入解析 PyTorch 的 `torch.randn_like`:原理、参数与实战示例
人工智能·pytorch·python
lqjun08271 小时前
Pytorch实现常用代码笔记
人工智能·pytorch·笔记
qyhua1 小时前
用 PyTorch 从零实现简易GPT(Transformer 模型)
人工智能·pytorch·transformer
白熊1882 小时前
【计算机视觉】OpenCV项目实战:基于face_recognition库的实时人脸识别系统深度解析
人工智能·opencv·计算机视觉