【在 DGX Spark 上运行 vLLM-Omni 用于 Qwen3-TTS(语音设计,语音克隆)】

使用 uv 创建虚拟环境

推荐使用 uv 管理 Python 环境与依赖,确保环境隔离和依赖可复现。在项目根目录执行以下命令创建虚拟环境(以 Python 3.12 为例):

bash 复制代码
uv venv .vllm --python 3.12
source .vllm/bin/activate

安装系统依赖

Qwen3-TTS 需要系统级音频工具支持。在 Debian/Ubuntu 系统中运行:

bash 复制代码
sudo apt-get update
sudo apt-get install ffmpeg sox -y

安装 vLLM 核心

根据硬件平台选择对应版本的 vLLM:

x86_64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

ARM64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_aarch64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

构建 vLLM-Omni

从源码安装以获得最新功能和扩展能力:

bash 复制代码
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni

ARM64 平台需额外处理

编辑 vllm-omni/requirements/cuda.txt,注释掉 fa3-fwd==0.0.2 行后执行:

bash 复制代码
uv pip install -e .

安装 Flash Attention(推荐)

高性能注意力实现可显著提升推理效率:

Flash Attention 2 安装

bash 复制代码
git clone --depth=1 https://github.com/Dao-AILab/flash-attention
cd flash-attention
export MAX_JOBS=16 NVCC_THREADS=2 FLASH_ATTENTION_FORCE_BUILD="TRUE"
uv pip install -v --no-build-isolation .

启动推理服务

使用以下命令启动 Qwen3-TTS 服务:

bash 复制代码
vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --stage-configs-path vllm_omni/model_executor/stage_configs/qwen3_tts.yaml \
  --omni --port 8091 --trust-remote-code --enforce-eager

调用示例

进入示例目录测试功能:

基础 TTS 合成

bash 复制代码
python openai_speech_client.py \
  --text "Your input text here" \
  --voice vivian \
  --language English

声音克隆

bash 复制代码
python openai_speech_client.py \
  --model Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --task-type Base \
  --text "Cloned voice output" \
  --ref-audio /path/to/reference.wav \
  --ref-text "Reference transcript"
相关推荐
qq_408753392 分钟前
用 AI 写小说实战:开源 Agent 从建书到出第一章
人工智能·aigc·开发工具
太子釢16 分钟前
Claude Code 主循环机制详解
人工智能
lyy-独立开发者17 分钟前
主动推理-信息消费策略
人工智能
GuWenyue24 分钟前
提示词彻底过时?一套上下文工程方案,3步让LLM落地生产,代码直接复用
前端·javascript·人工智能
秦歌66625 分钟前
agno-1-入门和智能体构建
人工智能
Kel26 分钟前
Pregel 为什么会成为LangGraph编排的心脏
人工智能·设计模式·架构
zhangfeng113338 分钟前
aclnn 完整含义解析 华为昇腾计算库-神经网络算子API(算子开发) acl / aclnn / aclrt 三者区分
人工智能·深度学习·神经网络
天风之翼40 分钟前
RAG 系统深度实战:从朴素检索到 Agentic RAG 的完整演进
人工智能
RobinDevNotes1 小时前
Headroom:给 AI Agent 上下文做压缩,省下 60%-95% 的 Token 账单
人工智能
2603_955279701 小时前
我的AI辅助开发工具链2026版:构建下一代智能编码工作流
人工智能