ComfyUI v0.21.0 更新解读:视频音频同步加载、PyAV 图像引擎切换、动态显存优化、云端与工作流能力全面升级

一、ComfyUI v0.21.0 正式发布

ComfyUI v0.21.0 已于 2026 年 5 月 11 日发布。本次版本更新量非常大,涵盖了视频处理、图像加载、显存优化、模型支持、节点修复、API 规范、工作流模板、云端运行能力、合作节点、前端包升级等多个方向。

整体来看,这一版本的关键词可以概括为:

  • 视频能力增强
  • PyAV 图像/视频加载全面切换
  • 显存与内存优化
  • 节点稳定性与兼容性修复
  • 模型支持持续扩展
  • 云端与 API 能力补强
  • 工作流模板与前端持续演进

对于正在使用 ComfyUI 的用户来说,这个版本不仅是一次功能更新,更是一次底层能力的系统升级。尤其是视频相关节点、图片加载方式、显存管理和 API 结构方面,变化非常明显。


二、核心更新一览

本次更新内容非常丰富,以下按主题进行整理。

1. 视频与音频处理增强

本版本最值得关注的变化之一,是在视频 loader 节点中实现了音频与视频同时读取。这意味着在处理多媒体输入时,ComfyUI 的能力更完整,不再只局限于视频帧本身。

同时,围绕 PyAV 的加载方式,官方还做了多项增强:

  • 处理元数据旋转信息
  • 支持 tRNS PNG
  • 使用 PyAV 加载图片而不是 Pillow
  • 降低 8 位格式的峰值内存占用
  • 改进 JPEG 其他格式的加载内存表现
  • 修复与音频 latents 相关的解码问题
  • 让视频 tiny VAE 的峰值显存更低、解码更快
  • 增强对时间维度和视频生成流程的支持

这些变化说明 ComfyUI 正在持续向更高效、更统一的多媒体处理体系靠拢。


2. 显存、内存和性能优化

动态显存与缓存相关优化也是本版本的重要内容。

更新中包括:

  • dynamicVRAM + --cache-ram 2
  • AMD portable 增加动态显存启动脚本
  • 优化动态显存准备日志
  • 预取逻辑在无 offload 情况下的保护
  • 为 frame interpolation 修正内存估算
  • 为 LTX 相关流程实施 block prefetch、Lora Async load 等速度优化
  • 让某些模型权重在多次计算时更好地处理
  • 修复固有的 device mismatch 问题
  • 修复多设备、多通道、不同图像格式下的内存行为

这些改进对于显存较紧张、使用大模型、视频模型或复杂工作流的用户非常关键。


3. 模型支持继续扩展

v0.21.0 对模型支持进行了大量扩展,包括但不限于:

  • Comfy-AIMDO v0.3.0
  • Cogvideox
  • Gemma4 文本生成支持
  • Auto-regressive video generation
  • Void model 的进一步支持
  • 支持 BiRefNet 背景去除模型
  • 支持 Wan-Dancer
  • 支持 LTX-2.x 生成的音频 latents
  • 支持 Causal forcing model 的 I2V
  • 支持 More model families and partner nodes integrations

与此同时,还新增了一系列合作节点模型,例如:

  • GPTImage2 自定义分辨率
  • ByteDance 虚拟人像库
  • Topaz Astra 2
  • Luma UNI-1
  • Gpt 5.5 和 5.5-pro
  • grok-imagine-image-quality
  • NanoBanana2
  • Tripo3D 3.1
  • Kling V3 motion control 价格徽标修复
  • 针对 SD2 的 adaptive aspect ratio
  • 以及其他合作节点模型扩展

这表明 ComfyUI 在"图像生成 + 视频生成 + 文本模型 + 3D 模型 + 商业 API 模型"上都在持续扩张。


4. 节点修复与兼容性增强

本版本对很多节点做了修复,涉及图像处理、掩码处理、批量处理、裁剪、颜色转换、文本节点、图层、tile 操作等。

比如:

  • SolidMask 和 MaskComposite 在 gpu-only 模式下设备不一致的问题
  • ImageBlend 和 ImageCompositeMasked 对不同通道数图像的处理问题
  • JoinImageWithAlpha 的 batch broadcasting
  • LoadImageMask 重构为复用 LoadImage 代码
  • ColorTransfer 节点的参考图像要求修复
  • SplitImageToTileList 与 ImageMergeTileList 的垂直 stride 最小值修复
  • Content-Disposition 头处理
  • get_file_info 返回毫秒级时间戳
  • NodeReplaceManager 注册幂等性
  • mask 不在同一设备时的错误
  • LTXVAddGuide 中 guide image 的 center-crop 行为
  • LTXVImgToVideoInplace 不再错误修改输入 latents 并丢失 noise_mask

这些修复内容虽然分散,但对实际使用体验提升非常明显。


三、按模块详细解读更新内容

下面逐项展开说明,方便你在文章中体现"全面、专业、信息密度高"的特点。

1)视频 loader 节点同时读取音频和视频

本次更新中,视频 loader 节点增加了同时读取音频和视频的能力。

这意味着在处理视频素材时,音画信息可以被更完整地保留和利用,对后续多模态工作流有直接帮助。

2)处理未初始化 meta-tensors 的问题

修复了模型中未初始化 meta-tensors 的处理问题,这也修复了某些 CPU TE 崩溃情况。

这类底层修复虽然不显眼,但对于稳定性非常重要。

3)保存 3D 模型节点的文件名前缀调整

保存 3D 模型的节点,其文件名前缀改为 3d/ComfyUI

这一变化有助于统一管理导出资源。

4)SolidMask 和 MaskComposite 的设备不一致修复

--gpu-only 场景下,SolidMask 和 MaskComposite 可能存在设备不一致问题,本次已修复。

对于严格显存或单 GPU 运行场景,这类问题很关键。

5)处理 metadata rotation

PyAV 代码中增加了对元数据旋转信息的处理。

这对图像和视频的方向识别非常重要,尤其是来自不同设备或平台的媒体文件。

6)PyAV 加载代码支持 tRNS PNG

tRNS PNG 是一种带透明度信息的 PNG 形式,本次更新让加载代码可以正确处理。

这进一步提升了图片兼容性。

7)改用 PyAV 加载图片

官方将图片加载逻辑从 Pillow 切换为 PyAV。

这是一个非常重要的底层变化,意味着图像、视频和其他多媒体资源的处理逻辑更加统一。

8)dynamicVRAM 与 --cache-ram 2

显存管理逻辑进一步增强,特别是在动态显存配合缓存 RAM 的场景下进行了适配。

这对低显存设备和复杂工作流特别有帮助。

9)减少视频 tiny VAE 的峰值显存和解码时间

视频 tiny VAE 的峰值显存更低,解码速度更快。

对视频生成和视频解码工作流来说,这是直接可感知的优化。

10)Cogvideox 支持

新增了 Cogvideox 相关支持,进一步扩展视频生成能力。

11)Flux2 latents 高质量预览支持

Flux2 latents 增加了高质量预览支持。

这对于查看中间结果、调试流程非常有价值。

12)8 bit 格式低峰值内存优化

在 PyAV 的支持下,8 位格式的加载峰值内存得到了降低。

对于大批量图片和视频输入来说,能够显著缓解内存压力。

13)SQLAlchemy 版本格式修正

修复了 requirements.txt 中 SQLAlchemy 版本格式问题。

属于依赖管理层面的修正。

14)GPTImage2 支持自定义分辨率

合作节点中,GPTImage2 现在支持自定义分辨率,同时还能始终显示自定义宽高。

这使得生成参数更直观。

15)ByteDance 虚拟人像库

增加了适用于普通图像的虚拟人像库能力。

属于合作节点扩展。

16)JPEG 其他格式低内存加载

进一步优化 JPEG 其他格式的加载方式,减少内存占用。

17)OneTrainer ERNIE LoRA 支持

新增 OneTrainer 对 ERNIE LoRA 的支持。

对训练生态是补充。

18)工作流模板升级

工作流模板持续更新到多个版本,包括:

  • v0.9.65
  • v0.9.66
  • v0.9.68
  • v0.9.69
  • v0.9.72
  • v0.9.73

这说明模板体系在持续演进,用户可以直接受益于新模板结构。

19)代码所有者更新

更新了多个代码所有者配置。

属于维护性内容。

20)Moonvalley API 节点移除

API 节点中移除了 Moonvalley 相关内容。

属于接口整理。

21)伙伴 API 节点超时默认值提升

合作节点 API 任务默认超时时间提升,减少超时失败概率。

22)移除 IPEX 支持

Intel Extension for Pytorch 支持被移除。

这对相关环境的用户是重要变更。

23)SDPose resize 修复

SDPose 的 resize 逻辑修复,增强图像姿态节点稳定性。

24)README 与文档更新

README 做了多项更新,包括:

  • 更新说明
  • 更新截图
  • 列出全部 portable 下载项
  • 更新 frontend 安装警告文案
  • 文档中说明核心稳定版本发布频率约为两周一次

这些改动有助于新用户快速理解项目现状。

25)加载图像节点清理与重构

load image 节点进行了清理;LoadImageMask 也重构为复用 LoadImage 代码。

这类改动能减少重复逻辑并提升维护性。

26)PrimitiveInt 默认控件行为修正

control_after_generate widget 默认改为 fixed。

属于交互体验优化。

27)ColorTransfer 节点修复

ColorTransfer 节点的 ref_image 现在必须提供。

这让节点行为更明确。

28)端口占用错误处理修复

启动服务时如果端口被占用,现可更优雅地处理。

这对开发者非常实用。

29)JoinImageWithAlpha 批处理广播支持

该节点加入 batch broadcasting,提升批处理兼容性。

30)triton comfy kitchen 命令行支持

支持通过 CLI 参数启用 triton comfy kitchen。

31)控制网加载顺序确定化

control-net 的加载顺序变得确定。

这有助于结果可复现。

32)同一权重多次计算处理

修复了相同权重多次计算时的处理问题。

33)显示名称与分类调整

多个节点的 display names 和 categories 被更新。

这类调整通常影响前端展示和分类组织。

34)OpenAPI 与 spec 扩展

规范层面增加了很多内容:

  • DeviceStats.index 与 NodeInfo.essentials_category 改为可空
  • PromptRequest 增加 workflow_id / workflow_version_id
  • 伙伴节点 API 调用增加 Comfy-Env 头
  • cloud-runtime 的前端操作加入规范
  • cloud-runtime 实验节点 schema endpoints 加入规范
  • cloud-specific 字段在 OSS openapi.yaml 中设为 nullable
  • MultiCombo multi_select 序列化修正
  • Content-Disposition 相关问题处理
  • 为 openapi.yaml 增加 Spectral lint CI gate

这些内容说明 API 规范化正在加强。

35)核心版本节奏说明

文档明确指出核心稳定版本发布频率约为两周一次。

这对使用者和集成者来说,是一个重要的信息。

36)自动回归视频生成支持

新增 Auto-regressive video generation 支持,扩展视频生成路线。

37)tile 相关节点 stride 修复

SplitImageToTileList 和 ImageMergeTileList 的垂直 stride 最小值修复,保证切块处理正确。

38)Luma UNI-1、Gpt 5.5、Gpt 5.5-pro、grok-imagine-image-quality 等合作模型

合作节点继续扩展到更多模型和能力。

39)背景去除模型支持

新增 BiRefNet 背景移除模型支持。

40)LTXV 系列修复

包括:

  • guide image 的居中裁剪
  • 不再错误修改输入 latents
  • 不再丢失 noise_mask

这些修复对视频和 latent 流程很关键。

41)mask 设备一致性修复

解决 mask 不在同一设备上的问题。

42)Blueprint 子图描述字段

增加了 blueprint subgraphs 的 description 字段。

增强蓝图可读性。

43)Wan-Dancer 支持

新增 Wan-Dancer 支持。

44)LatentCutToBatch 替换

有处流程改用了 LatentCutToBatch

45)Math Expression 节点支持布尔值

数学表达式节点增加 Boolean 支持。

46)新蓝图加入

加入新的 blueprints。

属于工作流资源补充。


四、这次更新适合谁关注

如果你是以下几类用户,这次更新都值得重点看:

  • 视频生成用户:音频+视频同步读取、Auto-regressive video generation、Cogvideox、LTX、WAN 相关变化都很重要。
  • 低显存用户:dynamicVRAM、cache-ram、tiny VAE 优化、8bit 内存优化都很有价值。
  • 工作流开发者:API spec、节点分类、display name、蓝图字段、模板升级等都影响实际开发。
  • 合作节点使用者:GPTImage2、Topaz Astra 2、Luma UNI-1、Tripo3D 3.1、Gpt 5.5 系列等更新频繁。
  • 图像与掩码处理用户:图像通道处理、alpha 合并、mask 修复、LoadImage 重构会直接影响结果。
  • 部署与运维人员:端口占用处理、前端安装提示、portable 下载说明、环境头、超时设置等都很重要。

五、总结

代码地址:github.com/Comfy-Org/ComfyUI

ComfyUI v0.21.0 是一个非常典型的"大版本连续演进"更新。它没有只停留在表面功能堆叠,而是从底层加载方式、显存管理、视频处理、API 规范、工作流模板、节点兼容性到合作生态都进行了广泛调整。

相关推荐
ZC跨境爬虫1 小时前
跟着 MDN 学 HTML day_57:(HTML 表格进阶特性与无障碍实践)
java·前端·javascript·ui·html·音视频
网管NO.12 小时前
视频核心技术 01:视频基础概念 —— 帧、分辨率、帧率、码率、YUV 色彩系统全解
音视频
网管NO.13 小时前
视频核心技术 04:封装格式详解 —— MP4、FLV、TS、MKV 到底有什么区别?
音视频
码农阿强3 小时前
技术解析|doubao‑seedance 全系列模型深度解读:API 开放生态赋能 AI 视频生成工程化
人工智能·音视频
大拿爱科技3 小时前
声音克隆接入短视频流程时,哪些环节最容易出问题?
人工智能·aigc·音视频·语音识别
DogDaoDao3 小时前
libaom源码search_intra_modes_in_interframe函数深度分析
音视频·视频编解码·av1·libaom·帧内预测·预测编码·预测模式
网管NO.13 小时前
视频核心技术 03:H.264 / H.265 / AV1 编码标准对比 —— 压缩率、复杂度、适用场景
音视频·h.265·h.264
黄昏恋慕黎明3 小时前
音视频测试
音视频
果果开发ggdoc.cn4 小时前
我找到一个在线视频处理工具,不用上传,本地就能转格式、提取音频和字幕
音视频