【在 DGX Spark 上运行 vLLM-Omni 用于 Qwen3-TTS(语音设计,语音克隆)】

使用 uv 创建虚拟环境

推荐使用 uv 管理 Python 环境与依赖,确保环境隔离和依赖可复现。在项目根目录执行以下命令创建虚拟环境(以 Python 3.12 为例):

bash 复制代码
uv venv .vllm --python 3.12
source .vllm/bin/activate

安装系统依赖

Qwen3-TTS 需要系统级音频工具支持。在 Debian/Ubuntu 系统中运行:

bash 复制代码
sudo apt-get update
sudo apt-get install ffmpeg sox -y

安装 vLLM 核心

根据硬件平台选择对应版本的 vLLM:

x86_64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

ARM64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_aarch64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

构建 vLLM-Omni

从源码安装以获得最新功能和扩展能力:

bash 复制代码
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni

ARM64 平台需额外处理

编辑 vllm-omni/requirements/cuda.txt,注释掉 fa3-fwd==0.0.2 行后执行:

bash 复制代码
uv pip install -e .

安装 Flash Attention(推荐)

高性能注意力实现可显著提升推理效率:

Flash Attention 2 安装

bash 复制代码
git clone --depth=1 https://github.com/Dao-AILab/flash-attention
cd flash-attention
export MAX_JOBS=16 NVCC_THREADS=2 FLASH_ATTENTION_FORCE_BUILD="TRUE"
uv pip install -v --no-build-isolation .

启动推理服务

使用以下命令启动 Qwen3-TTS 服务:

bash 复制代码
vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --stage-configs-path vllm_omni/model_executor/stage_configs/qwen3_tts.yaml \
  --omni --port 8091 --trust-remote-code --enforce-eager

调用示例

进入示例目录测试功能:

基础 TTS 合成

bash 复制代码
python openai_speech_client.py \
  --text "Your input text here" \
  --voice vivian \
  --language English

声音克隆

bash 复制代码
python openai_speech_client.py \
  --model Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --task-type Base \
  --text "Cloned voice output" \
  --ref-audio /path/to/reference.wav \
  --ref-text "Reference transcript"
相关推荐
薛定猫AI1 小时前
【深度解析】终端里的免费 AI 编程助手 Freebuff:多代理架构、模型路由与安全使用实战
人工智能·安全·架构
tedcloud1234 小时前
UI-TARS-desktop部署教程:构建AI桌面自动化系统
服务器·前端·人工智能·ui·自动化·github
曦月逸霜7 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学7 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场7 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
AC赳赳老秦7 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体7 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯8 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析8 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
AI医影跨模态组学8 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学