【在 DGX Spark 上运行 vLLM-Omni 用于 Qwen3-TTS(语音设计,语音克隆)】

使用 uv 创建虚拟环境

推荐使用 uv 管理 Python 环境与依赖,确保环境隔离和依赖可复现。在项目根目录执行以下命令创建虚拟环境(以 Python 3.12 为例):

bash 复制代码
uv venv .vllm --python 3.12
source .vllm/bin/activate

安装系统依赖

Qwen3-TTS 需要系统级音频工具支持。在 Debian/Ubuntu 系统中运行:

bash 复制代码
sudo apt-get update
sudo apt-get install ffmpeg sox -y

安装 vLLM 核心

根据硬件平台选择对应版本的 vLLM:

x86_64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

ARM64 平台(CUDA 13.0)

bash 复制代码
uv pip install \
  https://github.com/vllm-project/vllm/releases/download/v0.16.0/vllm-0.16.0+cu130-cp38-abi3-manylinux_2_35_aarch64.whl \
  --extra-index-url https://download.pytorch.org/whl/cu130 \
  --index-strategy unsafe-best-match

构建 vLLM-Omni

从源码安装以获得最新功能和扩展能力:

bash 复制代码
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni

ARM64 平台需额外处理

编辑 vllm-omni/requirements/cuda.txt,注释掉 fa3-fwd==0.0.2 行后执行:

bash 复制代码
uv pip install -e .

安装 Flash Attention(推荐)

高性能注意力实现可显著提升推理效率:

Flash Attention 2 安装

bash 复制代码
git clone --depth=1 https://github.com/Dao-AILab/flash-attention
cd flash-attention
export MAX_JOBS=16 NVCC_THREADS=2 FLASH_ATTENTION_FORCE_BUILD="TRUE"
uv pip install -v --no-build-isolation .

启动推理服务

使用以下命令启动 Qwen3-TTS 服务:

bash 复制代码
vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --stage-configs-path vllm_omni/model_executor/stage_configs/qwen3_tts.yaml \
  --omni --port 8091 --trust-remote-code --enforce-eager

调用示例

进入示例目录测试功能:

基础 TTS 合成

bash 复制代码
python openai_speech_client.py \
  --text "Your input text here" \
  --voice vivian \
  --language English

声音克隆

bash 复制代码
python openai_speech_client.py \
  --model Qwen/Qwen3-TTS-12Hz-1.7B-Base \
  --task-type Base \
  --text "Cloned voice output" \
  --ref-audio /path/to/reference.wav \
  --ref-text "Reference transcript"
相关推荐
笨笨饿几秒前
26_为什么工程上必须使用拉普拉斯变换
c语言·开发语言·人工智能·嵌入式硬件·机器学习·编辑器·概率论
Rabbit_QL4 分钟前
sklearn Pipeline:特征工程和建模流水线
人工智能·python·sklearn
Yao.Li6 分钟前
PVN3D 原生 / ONNX 混合 / TRT 混合推理速度测试
人工智能·3d·具身智能
财经资讯数据_灵砚智能7 分钟前
全球财经资讯日报(日间)2026年4月2日
大数据·人工智能·python·语言模型·ai编程
程序员鱼皮8 分钟前
鱼皮 AI 导航网站,突然起飞了!
人工智能·ai·程序员·编程·ai编程
雷焰财经17 分钟前
宇信科技2025年报解读:战略转型期的财务兑现与未来挑战
人工智能·科技
天天进步201517 分钟前
探究 Graphiti 在 Neo4j 之上的语义搜索与图遍历优化
人工智能·neo4j
Songgp102418 分钟前
yolo26+qwen3.5大小模型协同AI分析系统
图像处理·人工智能·python
阳光普照世界和平19 分钟前
AI大模型:重塑软件行业的创新引擎与发展新范式
人工智能
俊哥V32 分钟前
每日 AI 研究简报 · 2026-04-02
人工智能·ai