Nvidia 推出最新 AI 音频模型,可制作前所未有的声音

英伟达新发布的"Fugatto"模型能够通过创新的合成方法和推理技术,生成各种从未存在过的声音,包括混合音乐、语音和其他声音。虽然模型尚未公开测试,但其展示了许多独特的音频效果,展示了其潜力。

数据决定成败

在一篇解释性研究论文中,超过十位英伟达的研究人员通过利用大型语言模型 (LLM) 生成 Python 脚本,以创建大量描述不同音频"个性"的模板化和自由格式指令。由于广泛开源的 Fugatto 音频数据集通常缺乏特征测量,研究人员借助现有音频理解模型,为训练剪辑创建"合成标签",并自动量化性别、情感和语音质量等特征。同时,他们还使用音频处理工具在声学层面描述和量化训练剪辑。

https://www.youtube.com/watch?v=qj1Sp8He6e4

在进行关系性比较时,研究人员依赖于在某一因素保持不变时另一个因素变化的数据集,例如相同文本的不同情感朗读。通过比较这些样本,模型能够学习哪些音频特征与"更快乐"的语音相关,或区分不同乐器的声音。

......更多详细细节请点击原文查看:Nvidia 推出最新 AI 音频模型,可制作前所未有的声音

相关推荐
今天也要学习吖1 分钟前
【开源客服系统推荐】AI-CS:一个开源的智能客服系统
人工智能·开源·客服系统·ai大模型·ai客服·开源客服系统
Christo34 分钟前
2022-《Deep Clustering: A Comprehensive Survey》
人工智能·算法·机器学习·数据挖掘
jqpwxt6 分钟前
启点创新智慧景区服务平台,智慧景区数字驾驶舱建设
大数据·人工智能
weisian1518 分钟前
入门篇--人工智能发展史-2-什么是深度学习,深度学习的前世今生?
人工智能·深度学习
阿里云大数据AI技术9 分钟前
Hologres Dynamic Table:高效增量刷新,构建实时统一数仓的核心利器
大数据·人工智能·阿里云·实时数仓·hologres
小陈phd13 分钟前
大语言模型实战(四)——Transformer 网络架构源码剖析
人工智能·语言模型·transformer
IT_陈寒15 分钟前
JavaScript 性能优化:7 个 V8 引擎偏爱的编码模式让你提速 40%
前端·人工智能·后端
格林威15 分钟前
双目视觉标定:消除视差误差的7种核心方案,附OpenCV+Halcon实现代码!
人工智能·数码相机·opencv·计算机视觉·视觉检测·制造