2.1 vLLM-Omni + Wan2.1-T2V-1.3B测试数据

机器:

npu-smi info

复制代码
+------------------------------------------------------------------------------------------------+
| npu-smi 24.1.0                   Version: 24.1.0                                               |
+---------------------------+---------------+----------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Hugepages-Usage(page)|
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)        |
+===========================+===============+====================================================+
| 0     910B3               | OK            | 95.2        43                0    / 0             |
| 0                         | 0000:C1:00.0  | 0           0    / 0          3874 / 65536         |
+===========================+===============+====================================================+
| 1     910B3               | OK            | 90.3        42                0    / 0             |
| 0                         | 0000:C2:00.0  | 0           0    / 0          50449/ 65536         |
+===========================+===============+====================================================+
| 2     910B3               | OK            | 90.6        43                0    / 0             |
| 0                         | 0000:81:00.0  | 0           0    / 0          3404 / 65536         |
+===========================+===============+====================================================+
| 3     910B3               | OK            | 94.1        44                0    / 0             |
| 0                         | 0000:82:00.0  | 0           0    / 0          3405 / 65536         |
+===========================+===============+====================================================+
| 4     910B3               | OK            | 96.6        47                0    / 0             |
| 0                         | 0000:01:00.0  | 0           0    / 0          44930/ 65536         |
+===========================+===============+====================================================+
| 5     910B3               | OK            | 92.0        44                0    / 0             |
| 0                         | 0000:02:00.0  | 0           0    / 0          7206 / 65536         |
+===========================+===============+====================================================+
| 6     910B3               | OK            | 100.3       46                0    / 0             |
| 0                         | 0000:41:00.0  | 0           0    / 0          3389 / 65536         |
+===========================+===============+====================================================+
| 7     910B3               | OK            | 95.5        47                0    / 0             |
| 0                         | 0000:42:00.0  | 0           0    / 0          59668/ 65536         |
+===========================+===============+====================================================+

单卡单实例:

复制代码
export ASCEND_RT_VISIBLE_DEVICES=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

vllm-omni serve /data/models/Wan2.1-T2V-1.3B-Diffusers \
 --omni --port 8023 --boundary-ratio 0.875 \
 --flow-shift 5.0 --cfg-parallel-size 2 --dtype float16

curl -X POST http://localhost:8023/v1/videos/sync \
 -F "prompt=A futuristic city at sunset" \
 -F "width=832" \
 -F "height=480" \
 -F "num_frames=81" \
 -F "fps=16" \
 -F "num_inference_steps=50" \
 -F "guidance_scale=4.0" \
 -F "seed=42" \
 -o /data/cjh/omini/server_test3.mp4

耗时6min+

双卡单实例:

复制代码
export ASCEND_RT_VISIBLE_DEVICES=2,3
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export CFG_PARALLEL_SIZE=2
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh

vllm-omni serve /data/models/Wan2.1-T2V-1.3B-Diffusers \
 --omni --port 8023 --boundary-ratio 0.875 \
 --flow-shift 5.0 --cfg-parallel-size 2 --dtype float16

curl -X POST http://localhost:8023/v1/videos/sync \
 -F "prompt=A futuristic city at sunset" \
 -F "width=832" \
 -F "height=480" \
 -F "num_frames=81" \
 -F "fps=16" \
 -F "num_inference_steps=50" \
 -F "guidance_scale=4.0" \
 -F "seed=42" \
 -o /data/cjh/omini/server_test3.mp4

耗时3min+

模型并行策略优化

复制代码
https://docs.vllm.com.cn/projects/vllm-omni/en/latest/user_guide/diffusion/parallelism_acceleration/#overview

模型并行测试结论:wan2.1
不支持
Ring / USP	长序列(长视频)	作用:减少单卡显存占用,序列越长加速越明显

支持
CFG-Parallel	固定2卡	速度×2,质量不变
作用:
	CFG引导分支并行
	扩散模型每步要跑两次(guidance分支 + 无guidance分支)
	CFG-Parallel 让两个分支同时跑在不同GPU上
	结果等价于串行50步,但时间减半

并发建议:

复制代码
请求并发数:AsyncOmniDiffusion initialized with model: ... batch_size: 1;
vLLM-Omni 每次只处理 1 个请求,batch_size=1 是单实例的上限。
这不是配置问题,是架构设计决定的Diffusion Worker 的调度模式不支持同时处理多个请求。

多实例+ Nginx 负载均衡
相关推荐
张二娃同学8 小时前
第08篇_RNN_LSTM_GRU序列模型
人工智能·python·rnn·深度学习·神经网络·gru·lstm
动物园猫10 小时前
交通标识与信号灯数据集分享(适用于YOLO系列深度学习检测任务)
人工智能·深度学习·yolo
书生的梦10 小时前
《神经网络与深度学习》学习笔记(一)
笔记·深度学习·神经网络
AI医影跨模态组学10 小时前
Insights Imaging(IF=4.5)郑州大学第一附属医院高剑波等团队:基于CT的影像组学预测不可切除胃癌PD-1/PD-L1抑制剂联合化疗治疗反应
人工智能·深度学习·论文·医学·医学影像·影像组学
沪漂阿龙11 小时前
面试题:Transformer 模型详解——核心创新、编码器解码器结构、位置编码、因果掩码与大模型基础全解析
人工智能·深度学习·transformer
沪漂阿龙11 小时前
面试题:预训练模型详解——GPT、BERT、T5 结构与训练目标、预训练微调范式、Transformers 加载 BERT 实战全解析
人工智能·深度学习
数据门徒11 小时前
神经网络原理 第八章:主分量分析
人工智能·深度学习·神经网络
dfsj6601111 小时前
第十三章:Scaling Laws 与涌现能力
人工智能·深度学习
头盔小妹12 小时前
《计算机工程与应用》2026年投稿经验分享
人工智能·深度学习
时空无限12 小时前
transformer自注意力机制的核心理解
人工智能·深度学习·transformer