ComfyUI v0.21.0 更新解读：视频音频同步加载、PyAV 图像引擎切换、动态显存优化、云端与工作流能力全面升级

一、ComfyUI v0.21.0 正式发布

ComfyUI v0.21.0 已于 2026 年 5 月 11 日发布。本次版本更新量非常大，涵盖了视频处理、图像加载、显存优化、模型支持、节点修复、API 规范、工作流模板、云端运行能力、合作节点、前端包升级等多个方向。

整体来看，这一版本的关键词可以概括为：

视频能力增强
PyAV 图像/视频加载全面切换
显存与内存优化
节点稳定性与兼容性修复
模型支持持续扩展
云端与 API 能力补强
工作流模板与前端持续演进

对于正在使用 ComfyUI 的用户来说，这个版本不仅是一次功能更新，更是一次底层能力的系统升级。尤其是视频相关节点、图片加载方式、显存管理和 API 结构方面，变化非常明显。

二、核心更新一览

本次更新内容非常丰富，以下按主题进行整理。

1. 视频与音频处理增强

本版本最值得关注的变化之一，是在视频 loader 节点中实现了音频与视频同时读取。这意味着在处理多媒体输入时，ComfyUI 的能力更完整，不再只局限于视频帧本身。

同时，围绕 PyAV 的加载方式，官方还做了多项增强：

处理元数据旋转信息
支持 tRNS PNG
使用 PyAV 加载图片而不是 Pillow
降低 8 位格式的峰值内存占用
改进 JPEG 其他格式的加载内存表现
修复与音频 latents 相关的解码问题
让视频 tiny VAE 的峰值显存更低、解码更快
增强对时间维度和视频生成流程的支持

这些变化说明 ComfyUI 正在持续向更高效、更统一的多媒体处理体系靠拢。

2. 显存、内存和性能优化

动态显存与缓存相关优化也是本版本的重要内容。

更新中包括：

dynamicVRAM + --cache-ram 2
AMD portable 增加动态显存启动脚本
优化动态显存准备日志
预取逻辑在无 offload 情况下的保护
为 frame interpolation 修正内存估算
为 LTX 相关流程实施 block prefetch、Lora Async load 等速度优化
让某些模型权重在多次计算时更好地处理
修复固有的 device mismatch 问题
修复多设备、多通道、不同图像格式下的内存行为

这些改进对于显存较紧张、使用大模型、视频模型或复杂工作流的用户非常关键。

3. 模型支持继续扩展

v0.21.0 对模型支持进行了大量扩展，包括但不限于：

Comfy-AIMDO v0.3.0
Cogvideox
Gemma4 文本生成支持
Auto-regressive video generation
Void model 的进一步支持
支持 BiRefNet 背景去除模型
支持 Wan-Dancer
支持 LTX-2.x 生成的音频 latents
支持 Causal forcing model 的 I2V
支持 More model families and partner nodes integrations

与此同时，还新增了一系列合作节点模型，例如：

GPTImage2 自定义分辨率
ByteDance 虚拟人像库
Topaz Astra 2
Luma UNI-1
Gpt 5.5 和 5.5-pro
grok-imagine-image-quality
NanoBanana2
Tripo3D 3.1
Kling V3 motion control 价格徽标修复
针对 SD2 的 adaptive aspect ratio
以及其他合作节点模型扩展

这表明 ComfyUI 在"图像生成 + 视频生成 + 文本模型 + 3D 模型 + 商业 API 模型"上都在持续扩张。

4. 节点修复与兼容性增强

本版本对很多节点做了修复，涉及图像处理、掩码处理、批量处理、裁剪、颜色转换、文本节点、图层、tile 操作等。

比如：

SolidMask 和 MaskComposite 在 gpu-only 模式下设备不一致的问题
ImageBlend 和 ImageCompositeMasked 对不同通道数图像的处理问题
JoinImageWithAlpha 的 batch broadcasting
LoadImageMask 重构为复用 LoadImage 代码
ColorTransfer 节点的参考图像要求修复
SplitImageToTileList 与 ImageMergeTileList 的垂直 stride 最小值修复
Content-Disposition 头处理
get_file_info 返回毫秒级时间戳
NodeReplaceManager 注册幂等性
mask 不在同一设备时的错误
LTXVAddGuide 中 guide image 的 center-crop 行为
LTXVImgToVideoInplace 不再错误修改输入 latents 并丢失 noise_mask

这些修复内容虽然分散，但对实际使用体验提升非常明显。

三、按模块详细解读更新内容

下面逐项展开说明，方便你在文章中体现"全面、专业、信息密度高"的特点。

1）视频 loader 节点同时读取音频和视频

本次更新中，视频 loader 节点增加了同时读取音频和视频的能力。

这意味着在处理视频素材时，音画信息可以被更完整地保留和利用，对后续多模态工作流有直接帮助。

2）处理未初始化 meta-tensors 的问题

修复了模型中未初始化 meta-tensors 的处理问题，这也修复了某些 CPU TE 崩溃情况。

这类底层修复虽然不显眼，但对于稳定性非常重要。

3）保存 3D 模型节点的文件名前缀调整

保存 3D 模型的节点，其文件名前缀改为 3d/ComfyUI。

这一变化有助于统一管理导出资源。

4）SolidMask 和 MaskComposite 的设备不一致修复

在 --gpu-only 场景下，SolidMask 和 MaskComposite 可能存在设备不一致问题，本次已修复。

对于严格显存或单 GPU 运行场景，这类问题很关键。

5）处理 metadata rotation

PyAV 代码中增加了对元数据旋转信息的处理。

这对图像和视频的方向识别非常重要，尤其是来自不同设备或平台的媒体文件。

6）PyAV 加载代码支持 tRNS PNG

tRNS PNG 是一种带透明度信息的 PNG 形式，本次更新让加载代码可以正确处理。

这进一步提升了图片兼容性。

7）改用 PyAV 加载图片

官方将图片加载逻辑从 Pillow 切换为 PyAV。

这是一个非常重要的底层变化，意味着图像、视频和其他多媒体资源的处理逻辑更加统一。

8）dynamicVRAM 与 --cache-ram 2

显存管理逻辑进一步增强，特别是在动态显存配合缓存 RAM 的场景下进行了适配。

这对低显存设备和复杂工作流特别有帮助。

9）减少视频 tiny VAE 的峰值显存和解码时间

视频 tiny VAE 的峰值显存更低，解码速度更快。

对视频生成和视频解码工作流来说，这是直接可感知的优化。

10）Cogvideox 支持

新增了 Cogvideox 相关支持，进一步扩展视频生成能力。

11）Flux2 latents 高质量预览支持

Flux2 latents 增加了高质量预览支持。

这对于查看中间结果、调试流程非常有价值。

12）8 bit 格式低峰值内存优化

在 PyAV 的支持下，8 位格式的加载峰值内存得到了降低。

对于大批量图片和视频输入来说，能够显著缓解内存压力。

13）SQLAlchemy 版本格式修正

修复了 requirements.txt 中 SQLAlchemy 版本格式问题。

属于依赖管理层面的修正。

14）GPTImage2 支持自定义分辨率

合作节点中，GPTImage2 现在支持自定义分辨率，同时还能始终显示自定义宽高。

这使得生成参数更直观。

15）ByteDance 虚拟人像库

增加了适用于普通图像的虚拟人像库能力。

属于合作节点扩展。

16）JPEG 其他格式低内存加载

进一步优化 JPEG 其他格式的加载方式，减少内存占用。

17）OneTrainer ERNIE LoRA 支持

新增 OneTrainer 对 ERNIE LoRA 的支持。

对训练生态是补充。

18）工作流模板升级

工作流模板持续更新到多个版本，包括：

v0.9.65
v0.9.66
v0.9.68
v0.9.69
v0.9.72
v0.9.73

这说明模板体系在持续演进，用户可以直接受益于新模板结构。

19）代码所有者更新

更新了多个代码所有者配置。

属于维护性内容。

20）Moonvalley API 节点移除

API 节点中移除了 Moonvalley 相关内容。

属于接口整理。

21）伙伴 API 节点超时默认值提升

合作节点 API 任务默认超时时间提升，减少超时失败概率。

22）移除 IPEX 支持

Intel Extension for Pytorch 支持被移除。

这对相关环境的用户是重要变更。

23）SDPose resize 修复

SDPose 的 resize 逻辑修复，增强图像姿态节点稳定性。

24）README 与文档更新

README 做了多项更新，包括：

更新说明
更新截图
列出全部 portable 下载项
更新 frontend 安装警告文案
文档中说明核心稳定版本发布频率约为两周一次

这些改动有助于新用户快速理解项目现状。

25）加载图像节点清理与重构

load image 节点进行了清理；LoadImageMask 也重构为复用 LoadImage 代码。

这类改动能减少重复逻辑并提升维护性。

26）PrimitiveInt 默认控件行为修正

control_after_generate widget 默认改为 fixed。

属于交互体验优化。

27）ColorTransfer 节点修复

ColorTransfer 节点的 ref_image 现在必须提供。

这让节点行为更明确。

28）端口占用错误处理修复

启动服务时如果端口被占用，现可更优雅地处理。

这对开发者非常实用。

29）JoinImageWithAlpha 批处理广播支持

该节点加入 batch broadcasting，提升批处理兼容性。

30）triton comfy kitchen 命令行支持

支持通过 CLI 参数启用 triton comfy kitchen。

31）控制网加载顺序确定化

control-net 的加载顺序变得确定。

这有助于结果可复现。

32）同一权重多次计算处理

修复了相同权重多次计算时的处理问题。

33）显示名称与分类调整

多个节点的 display names 和 categories 被更新。

这类调整通常影响前端展示和分类组织。

34）OpenAPI 与 spec 扩展

规范层面增加了很多内容：

DeviceStats.index 与 NodeInfo.essentials_category 改为可空
PromptRequest 增加 workflow_id / workflow_version_id
伙伴节点 API 调用增加 Comfy-Env 头
cloud-runtime 的前端操作加入规范
cloud-runtime 实验节点 schema endpoints 加入规范
cloud-specific 字段在 OSS openapi.yaml 中设为 nullable
MultiCombo multi_select 序列化修正
Content-Disposition 相关问题处理
为 openapi.yaml 增加 Spectral lint CI gate

这些内容说明 API 规范化正在加强。

35）核心版本节奏说明

文档明确指出核心稳定版本发布频率约为两周一次。

这对使用者和集成者来说，是一个重要的信息。

36）自动回归视频生成支持

新增 Auto-regressive video generation 支持，扩展视频生成路线。

37）tile 相关节点 stride 修复

SplitImageToTileList 和 ImageMergeTileList 的垂直 stride 最小值修复，保证切块处理正确。

38）Luma UNI-1、Gpt 5.5、Gpt 5.5-pro、grok-imagine-image-quality 等合作模型

合作节点继续扩展到更多模型和能力。

39）背景去除模型支持

新增 BiRefNet 背景移除模型支持。

40）LTXV 系列修复

包括：

guide image 的居中裁剪
不再错误修改输入 latents
不再丢失 noise_mask

这些修复对视频和 latent 流程很关键。

41）mask 设备一致性修复

解决 mask 不在同一设备上的问题。

42）Blueprint 子图描述字段

增加了 blueprint subgraphs 的 description 字段。

增强蓝图可读性。

43）Wan-Dancer 支持

新增 Wan-Dancer 支持。

44）LatentCutToBatch 替换

有处流程改用了 LatentCutToBatch。

45）Math Expression 节点支持布尔值

数学表达式节点增加 Boolean 支持。

46）新蓝图加入

加入新的 blueprints。

属于工作流资源补充。

四、这次更新适合谁关注

如果你是以下几类用户，这次更新都值得重点看：

视频生成用户：音频+视频同步读取、Auto-regressive video generation、Cogvideox、LTX、WAN 相关变化都很重要。
低显存用户：dynamicVRAM、cache-ram、tiny VAE 优化、8bit 内存优化都很有价值。
工作流开发者：API spec、节点分类、display name、蓝图字段、模板升级等都影响实际开发。
合作节点使用者：GPTImage2、Topaz Astra 2、Luma UNI-1、Tripo3D 3.1、Gpt 5.5 系列等更新频繁。
图像与掩码处理用户：图像通道处理、alpha 合并、mask 修复、LoadImage 重构会直接影响结果。
部署与运维人员：端口占用处理、前端安装提示、portable 下载说明、环境头、超时设置等都很重要。

五、总结

代码地址：github.com/Comfy-Org/ComfyUI

ComfyUI v0.21.0 是一个非常典型的"大版本连续演进"更新。它没有只停留在表面功能堆叠，而是从底层加载方式、显存管理、视频处理、API 规范、工作流模板、节点兼容性到合作生态都进行了广泛调整。