InspireMusic:阿里通义实验室开源的音乐生成模型,支持文本或音频生成多种风格的音乐

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 InspireMusic 这个由阿里巴巴通义实验室开源的音乐生成技术。

🚀 快速阅读

InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,能够通过人工智能为用户生成高质量的音乐作品。

  1. 核心功能:支持通过简单的文字描述或音频提示快速生成多种风格的音乐。
  2. 技术原理:基于多模态大模型技术,结合自回归 Transformer 模型、扩散模型(CFM)和 Vocoder 实现音乐生成。

InspireMusic 是什么

InspireMusic 是阿里巴巴通义实验室开源的音乐生成技术,通过人工智能为用户生成高质量的音乐作品。它基于多模态大模型技术,支持通过简单的文字描述或音频提示快速生成多种风格的音乐。InspireMusic 的核心架构包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,能实现文本生成音乐、音乐续写等功能。

InspireMusic 旨在为普通用户提供创新的声音景观和增强音乐创作的能力,适用于音乐创作、音频处理和个人音乐爱好者等多种场景。

InspireMusic 的主要功能

  • 文本到音乐的生成:用户可以通过简单的文字描述生成符合需求的音乐作品。
  • 音乐结构和风格控制:支持通过音乐类型、情感表达和复杂的音乐结构标签来控制生成的音乐。
  • 高质量音频输出:支持多种采样率(如24kHz和48kHz),能够生成高音质的音频。
  • 长音频生成:支持生成超过5分钟的长音频。
  • 灵活的推理模式:提供fast模式(快速生成)和高音质模式,满足不同用户的需求。
  • 模型训练和调优工具:为研究者和开发者提供丰富的音乐生成模型训练和调优工具。

InspireMusic 的技术原理

  • 音频 Tokenizer:使用具有高压缩比的单码本 WavTokenizer,将输入的连续音频特征转换为离散的音频 token。将音频数据转化为模型可以处理的形式。
  • 自回归 Transformer 模型:基于 Qwen 模型初始化的自回归 Transformer 模型,用于根据文本提示预测音频 token。模型能理解文本描述并生成与之匹配的音乐序列。
  • 扩散模型(Conditional Flow Matching, CFM):用基于常微分方程的扩散模型重建音频的潜层特征。CFM 模型能从生成的音频 token 中恢复出高质量的音频特征,增强音乐的连贯性和自然度。
  • Vocoder:将重建后的音频特征转换为高质量的音频波形,输出最终的音乐作品。

如何运行 InspireMusic

1. 克隆仓库

sh 复制代码
git clone --recursive https://github.com/FunAudioLLM/InspireMusic.git
cd InspireMusic
git submodule update --init --recursive

2. 安装依赖

InspireMusic 要求 Python 3.8 和 PyTorch 2.0.1。安装步骤如下:

sh 复制代码
conda create -n inspiremusic python=3.8
conda activate inspiremusic
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
pip install flash-attn --no-build-isolation

3. 下载预训练模型

sh 复制代码
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/InspireMusic-1.5B-Long.git pretrained_models/InspireMusic-1.5B-Long

4. 快速生成音乐

sh 复制代码
cd examples/music_generation
bash infer_1.5b_long.sh

5. 一键生成音乐(文本到音乐)

sh 复制代码
python -m inspiremusic.cli.inference --task text-to-music -m "InspireMusic-1.5B-Long" -g 0 -t "Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance." -c intro -s 0.0 -e 30.0 -r "exp/inspiremusic" -o output -f wav

6. 音乐续写

sh 复制代码
python -m inspiremusic.cli.inference --task continuation -g 0 -a audio_prompt.wav

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关推荐
刘什么洋啊Zz1 小时前
MacOS下使用Ollama本地构建DeepSeek并使用本地Dify构建AI应用
人工智能·macos·ai·ollama·deepseek
奔跑草-2 小时前
【拥抱AI】GPT Researcher 源码试跑成功的心得与总结
人工智能·gpt·ai搜索·deep research·深度检索
禁默2 小时前
【第四届网络安全、人工智能与数字经济国际学术会议(CSAIDE 2025】网络安全,人工智能,数字经济的研究
人工智能·安全·web安全·数字经济·学术论文
AnnyYoung4 小时前
华为云deepseek大模型平台:deepseek满血版
人工智能·ai·华为云
INDEMIND5 小时前
INDEMIND:AI视觉赋能服务机器人,“零”碰撞避障技术实现全天候安全
人工智能·视觉导航·服务机器人·商用机器人
慕容木木5 小时前
【全网最全教程】使用最强DeepSeekR1+联网的火山引擎,没有生成长度限制,DeepSeek本体的替代品,可本地部署+知识库,注册即可有750w的token使用
人工智能·火山引擎·deepseek·deepseek r1
南 阳5 小时前
百度搜索全面接入DeepSeek-R1满血版:AI与搜索的全新融合
人工智能·chatgpt
企鹅侠客5 小时前
开源免费文档翻译工具 可支持pdf、word、excel、ppt
人工智能·pdf·word·excel·自动翻译
冰淇淋百宝箱6 小时前
AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
人工智能·安全
Elastic 中国社区官方博客6 小时前
Elasticsearch Open Inference API 增加了对 Jina AI 嵌入和 Rerank 模型的支持
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina