超快文本生成音频神器:TangoFlux,AI 又解锁了新领域!让声音“由你掌控”!

在 AI 的发展浪潮中,从文本生成图像(Text-to-Image)到生成视频,技术的边界不断被突破。

而生成音频(Text-to-Audio, TTA)领域,也迎来了革命性的工具:TangoFlux

由新加坡科技设计大学的 DeCLaRe 实验室和 NVIDIA 联合推出,TangoFlux 以其高效性、高质量和极低的硬件需求吸引了众多开发者和音频设计爱好者的目光。

项目简介

TangoFlux 是一款专注于将文本提示词转化为高质量音频的 AI 模型,由英伟达和新加坡科技大学一起合作的研究成果。

与传统音频生成方法不同,TangoFlux 能够快速生成符合用户需求的音效、背景音乐或其他声音片段,无需复杂的后期处理。

比如虫鸣鸟叫,能够在短短3.7秒内生成最长可达30秒的44.1kHz 音频。

在 TTA 技术领域引领了一波新潮流,甚至可能彻底改变我们生产音效和音乐的方式。

核心亮点

高效模型:3.7 秒生成 30 秒音频

TangoFlux 拥有 5.15 亿参数,并采用先进的架构优化,在一块 A40 GPU 上可以仅用 3.7 秒生成 30 秒长的高质量音频(44.1kHz 立体声),为用户提供流畅、高效的生成体验。

长音频支持

与传统 TTA 模型的短音频输出限制不同,TangoFlux 支持生成长达 30 秒的音频,为用户提供更多创作空间。无论是复杂的音乐片段,还是长音效,都能轻松完成。

CRPO 优化:生成更贴合用户偏好的音频

TTA 模型的最大挑战是如何生成符合用户偏好的音频内容。

传统方法难以建立清晰的偏好数据,而 TangoFlux 引入了 CLAP-Ranked Preference Optimization(CRPO) 框架。这种创新方法可以自动生成和优化音频偏好数据,让模型逐步学会理解用户需求,输出更加符合预期的音效。

实际测试表明,基于 CRPO 的 TangoFlux 在生成音频质量和用户满意度上,明显优于其他同类模型。

主要功能

  • 文本生成音效

  • 支持多场景音效

  • 音乐片段:旋律、节奏背景;

  • 环境音效:雨声、风声、海浪;

  • 特效音效:爆炸、机械运作;

  • 语音片段:自然语音合成。

  • 可定制音频输出

快速使用

方法一:通过 Hugging Face Space 在线试用

打开 试用地址,在输入框中提供提示词,点击生成几秒钟后即可下载音频文件。

方法二:本地部署

对于希望在本地运行模型的用户,可以按以下步骤操作:

① 克隆项目:

bash 复制代码
git clone https://github.com/declare-lab/TangoFlux.git
cd TangoFlux

② 运行以下命令以启动网络界面:

tangoflux-demo

③ 使用 命令行 从文本生成音频。

css 复制代码
tangoflux "Hammer slowly hitting the wooden table" output.wav --duration 10 --steps 50

④ 使用Python API

ini 复制代码
import torchaudio
from tangoflux import TangoFluxInference

model = TangoFluxInference(name='declare-lab/TangoFlux')
audio = model.generate('Hammer slowly hitting the wooden table', steps=50, duration=10)

torchaudio.save('output.wav', audio, 44100)

适用场景

音乐与影视制作

  • 音乐创作:快速生成背景音乐或音效,为创作带来灵感;

  • 影视配乐:通过提示词生成场景配乐,大幅减少制作时间。

游戏开发

  • 环境音效:如森林、战场等特定场景的背景音;

  • 交互音效:武器攻击、技能释放等特效音。

播客与有声书

  • 过渡音效:制作简短的转场或背景音;

  • 情感语音:为故事片段生成情感化语音。

写在最后

TangoFlux 不仅是一款技术强大的文本生成音频工具,更是音频生成领域的一次革命性突破。

它的高速处理、开源特性和创新的 CRPO 优化方法,让每个用户都能以最快的速度、最低的门槛,生成符合自己需求的高质量音频。

无论你是创意工作者、技术开发者,还是音乐爱好者,TangoFlux 都值得一试。随着 AI 技术的不断进步,我们可以期待,这样的工具将变得越来越普及,甚至彻底改变音频创作的传统方式。

项目主页:tangoflux.github.io

GitHub 项目地址:github.com/declare-lab...

试用地址:huggingface.co/spaces/decl...

相关推荐
IT古董4 分钟前
【机器学习】机器学习的基本分类-自监督学习(Self-supervised Learning)
人工智能·学习·机器学习·分类
哦豁灬11 分钟前
github 个人主页配置
github
鸟哥大大21 分钟前
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
人工智能·深度学习·机器学习·aigc·语音识别
是十一月末1 小时前
Opencv查找、绘制轮廓、圆形矩形轮廓和近似轮廓
人工智能·python·opencv·计算机视觉
机器懒得学习1 小时前
基于人脸识别和 MySQL 的考勤管理系统实现
数据库·人工智能·python·科技·mysql
格林威1 小时前
Baumer工业相机堡盟LXT工业相机如何升级固件使得相机具有RDMA功能
人工智能·数码相机·算法·计算机视觉·c#
小墙程序员1 小时前
人工智能的发展概述
人工智能
前网易架构师-高司机1 小时前
玉米好坏检测数据集,对2357张玉米图片进行yolo,coco,voc格式的人工标注,平均准确率在89.5%以上
人工智能·yolo·机器学习
Fuliy962 小时前
NO.1 《机器学习期末复习篇》以题(问答题)促习(人学习),满满干huo,大胆学大胆补!
人工智能·深度学习·机器学习