【在 DGX Spark 上运行 vLLM-Omni 用于 Qwen3-TTS(语音设计,语音克隆)】

使用 uv 创建虚拟环境

推荐使用 uv 管理 Python 环境与依赖,确保环境隔离和依赖可复现。在项目根目录执行以下命令创建虚拟环境(以 Python 3.12 为例):

bash 复制代码
uv venv .vllm --python 3.12
source .vllm/bin/activate

安装系统依赖

Qwen3-TTS 需要系统级音频工具支持。在 Debian/Ubuntu 系统中运行:

bash 复制代码
sudo apt-get update
sudo apt-get install ffmpeg sox -y

安装 vLLM 核心

根据硬件平台选择对应版本的 vLLM:

x86_64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

ARM64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_aarch64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

构建 vLLM-Omni

从源码安装以获得最新功能和扩展能力:

bash 复制代码
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni

ARM64 平台需额外处理

编辑 vllm-omni/requirements/cuda.txt,注释掉 fa3-fwd==0.0.2 行后执行:

bash 复制代码
uv pip install -e .

安装 Flash Attention(推荐)

高性能注意力实现可显著提升推理效率:

Flash Attention 2 安装

bash 复制代码
git clone --depth=1 https://github.com/Dao-AILab/flash-attention
cd flash-attention
export MAX_JOBS=16 NVCC_THREADS=2 FLASH_ATTENTION_FORCE_BUILD="TRUE"
uv pip install -v --no-build-isolation .

启动推理服务

使用以下命令启动 Qwen3-TTS 服务:

bash 复制代码
vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --stage-configs-path vllm_omni/model_executor/stage_configs/qwen3_tts.yaml \
  --omni --port 8091 --trust-remote-code --enforce-eager

调用示例

进入示例目录测试功能:

基础 TTS 合成

bash 复制代码
python openai_speech_client.py \
  --text "Your input text here" \
  --voice vivian \
  --language English

声音克隆

bash 复制代码
python openai_speech_client.py \
  --model Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --task-type Base \
  --text "Cloned voice output" \
  --ref-audio /path/to/reference.wav \
  --ref-text "Reference transcript"
相关推荐
秋917 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
啦啦啦_999917 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke17 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD17 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
tq108618 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯18 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')19 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui
秋920 小时前
3年经验Python后端转AI Engineer:3个月实战转型计划(2026版)
开发语言·人工智能·python
圣殿骑士-Khtangc20 小时前
GPT-5.5 技术深度解析与企业级生产落地实战:从幻觉率下降到百万Token工程化
人工智能·gpt
2601_9619633820 小时前
技术解剖:哈希值、区块链与CA认证如何守护电子合同安全?
网络·人工智能·安全·区块链·智能合约·政务