超快文本生成音频神器:TangoFlux,AI 又解锁了新领域!让声音“由你掌控”!

在 AI 的发展浪潮中,从文本生成图像(Text-to-Image)到生成视频,技术的边界不断被突破。

而生成音频(Text-to-Audio, TTA)领域,也迎来了革命性的工具:TangoFlux

由新加坡科技设计大学的 DeCLaRe 实验室和 NVIDIA 联合推出,TangoFlux 以其高效性、高质量和极低的硬件需求吸引了众多开发者和音频设计爱好者的目光。

项目简介

TangoFlux 是一款专注于将文本提示词转化为高质量音频的 AI 模型,由英伟达和新加坡科技大学一起合作的研究成果。

与传统音频生成方法不同,TangoFlux 能够快速生成符合用户需求的音效、背景音乐或其他声音片段,无需复杂的后期处理。

比如虫鸣鸟叫,能够在短短3.7秒内生成最长可达30秒的44.1kHz 音频。

在 TTA 技术领域引领了一波新潮流,甚至可能彻底改变我们生产音效和音乐的方式。

核心亮点

高效模型:3.7 秒生成 30 秒音频

TangoFlux 拥有 5.15 亿参数,并采用先进的架构优化,在一块 A40 GPU 上可以仅用 3.7 秒生成 30 秒长的高质量音频(44.1kHz 立体声),为用户提供流畅、高效的生成体验。

长音频支持

与传统 TTA 模型的短音频输出限制不同,TangoFlux 支持生成长达 30 秒的音频,为用户提供更多创作空间。无论是复杂的音乐片段,还是长音效,都能轻松完成。

CRPO 优化:生成更贴合用户偏好的音频

TTA 模型的最大挑战是如何生成符合用户偏好的音频内容。

传统方法难以建立清晰的偏好数据,而 TangoFlux 引入了 CLAP-Ranked Preference Optimization(CRPO) 框架。这种创新方法可以自动生成和优化音频偏好数据,让模型逐步学会理解用户需求,输出更加符合预期的音效。

实际测试表明,基于 CRPO 的 TangoFlux 在生成音频质量和用户满意度上,明显优于其他同类模型。

主要功能

  • 文本生成音效

  • 支持多场景音效

  • 音乐片段:旋律、节奏背景;

  • 环境音效:雨声、风声、海浪;

  • 特效音效:爆炸、机械运作;

  • 语音片段:自然语音合成。

  • 可定制音频输出

快速使用

方法一:通过 Hugging Face Space 在线试用

打开 试用地址,在输入框中提供提示词,点击生成几秒钟后即可下载音频文件。

方法二:本地部署

对于希望在本地运行模型的用户,可以按以下步骤操作:

① 克隆项目:

bash 复制代码
git clone https://github.com/declare-lab/TangoFlux.git
cd TangoFlux

② 运行以下命令以启动网络界面:

复制代码
tangoflux-demo

③ 使用 命令行 从文本生成音频。

css 复制代码
tangoflux "Hammer slowly hitting the wooden table" output.wav --duration 10 --steps 50

④ 使用Python API

ini 复制代码
import torchaudio
from tangoflux import TangoFluxInference

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

torchaudio.save('output.wav', audio, 44100)

适用场景

音乐与影视制作

  • 音乐创作:快速生成背景音乐或音效,为创作带来灵感;

  • 影视配乐:通过提示词生成场景配乐,大幅减少制作时间。

游戏开发

  • 环境音效:如森林、战场等特定场景的背景音;

  • 交互音效:武器攻击、技能释放等特效音。

播客与有声书

  • 过渡音效:制作简短的转场或背景音;

  • 情感语音:为故事片段生成情感化语音。

写在最后

TangoFlux 不仅是一款技术强大的文本生成音频工具,更是音频生成领域的一次革命性突破。

它的高速处理、开源特性和创新的 CRPO 优化方法,让每个用户都能以最快的速度、最低的门槛,生成符合自己需求的高质量音频。

无论你是创意工作者、技术开发者,还是音乐爱好者,TangoFlux 都值得一试。随着 AI 技术的不断进步,我们可以期待,这样的工具将变得越来越普及,甚至彻底改变音频创作的传统方式。

项目主页:tangoflux.github.io

GitHub 项目地址:github.com/declare-lab...

试用地址:huggingface.co/spaces/decl...

相关推荐
新加坡内哥谈技术29 分钟前
Meta计划借助AI实现广告创作全自动化
运维·人工智能·自动化
西猫雷婶1 小时前
pytorch基本运算-导数和f-string
人工智能·pytorch·python
Johny_Zhao1 小时前
华为MAAS、阿里云PAI、亚马逊AWS SageMaker、微软Azure ML各大模型深度分析对比
linux·人工智能·ai·信息安全·云计算·系统运维
顽强卖力1 小时前
第二十八课:深度学习及pytorch简介
人工智能·pytorch·深度学习
述雾学java1 小时前
深入理解 transforms.Normalize():PyTorch 图像预处理中的关键一步
人工智能·pytorch·python
武子康1 小时前
大数据-276 Spark MLib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树
大数据·人工智能·算法·机器学习·语言模型·spark-ml·boosting
要努力啊啊啊1 小时前
使用 Python + SQLAlchemy 创建知识库数据库(SQLite)—— 构建本地知识库系统的基础《一》
数据库·人工智能·python·深度学习·自然语言处理·sqlite
武子康1 小时前
大数据-277 Spark MLib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现
大数据·人工智能·算法·机器学习·ai·spark-ml·boosting
中杯可乐多加冰2 小时前
【解决方案-RAGFlow】RAGFlow显示Task is queued、 Microsoft Visual C++ 14.0 or greater is required.
人工智能·大模型·llm·rag·ragflow·deepseek