Comfyui 教程-14

4.8 视频深度估计模型简介

4.8.1 定义

视频深度估计(Video Depth Estimation)是一种通过 AI 算法从视频序列中逐帧推断场景三维深度信息 的技术,输出与视频对应的深度图序列(Depth Map Sequence)。深度图以灰度表示远近(白=近,黑=远),可用于视频生成的结构控制、3D 效果制作、AR/VR 内容创作等。

简单理解:视频深度估计是 ComfyUI 视频工作流的**"三维感知器"**------让 AI 理解视频里每个像素离镜头有多远,从而精准控制空间层次、实现立体效果。

4.8.2 核心原理

|----------------------|------------------------|
| 技术 | 说明 |
| 单目深度估计 | 从单张/单视角图像推断深度,无需立体相机 |
| 时序一致性约束 | 利用帧间连续性稳定深度输出,避免帧间深度跳动 |
| 多尺度特征融合 | 融合不同分辨率的特征,兼顾全局结构和局部细节 |
| Transformer 全局建模 | 用注意力机制捕捉长距离空间关系 |
| 视频光流辅助 | 结合光流信息对齐帧间深度,保持时序稳定 |

深度图示意

4.8.3 主流视频深度估计模型

|---------------------------------------|-------------------------|-----------|----------|--------|----------|----------------------------|---------------|
| 模型 | 架构 | 输出分辨率 | 显存需求 | 速度 | 质量评级 | 特点 | 适用场景 |
| MiDaS(视频版) | DPT-Large / BEiT 编码器 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐ | 老牌经典,跨数据集泛化强,支持视频时序平滑,生态成熟 | 通用深度估计、快速预览 |
| MiDaS v3.1 | DPT-Hybrid 优化 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 最新版,精度和速度平衡更好 | 高质量深度图生成 |
| Depth Anything V1 | ViT 编码器 + 大规模数据训练 | 与输入一致 | 中 | 快 | ⭐⭐⭐⭐⭐ | 2024 爆款,零样本泛化能力极强,任意场景深度估计 | 通用场景、复杂环境 |
| Depth Anything V2 | V2 优化版 + 更精准度量 | 与输入一致 | 中 | 快 | ⭐⭐⭐⭐⭐ | 当前开源 SOTA,精度更高、边缘更清晰、时序更稳定 | 专业级深度估计首选 |
| ZoeDepth | 结合相对深度 + 绝对深度 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 输出绝对深度值(米级),非仅相对关系 | 需要真实距离信息的应用 |
| DPT(Dense Prediction Transformer) | Transformer 编码器 | 与输入一致 | 高 | 慢 | ⭐⭐⭐⭐⭐ | 学术基准模型,精度高但慢 | 研究、高精度需求 |
| Adabins | 自适应分箱回归 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐ | 室内场景表现优秀 | 室内导航、家具布置 |
| Video Depth Anything | Depth Anything + 视频时序模块 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 专为视频设计,时序一致性极佳 | 视频生成控制、连续深度序列 |
| Consistent Video Depth | 多帧联合优化 + 几何约束 | 与输入一致 | 高 | 慢 | ⭐⭐⭐⭐⭐ | 全局几何一致性最强,支持相机位姿估计 | 3D 重建、NeRF 输入 |

4.8.4 两大主流模型详细对比

|----------------|---------------------|----------------------------|
| 维度 | MiDaS(视频版) | Depth Anything V2 |
| 开发方 | Intel ISL 实验室 | 香港大学 + 字节跳动 |
| 发布时间 | 2020--2023(持续更新) | 2024(V1)/ 2025(V2) |
| 核心优势 | 跨数据集泛化强、生态成熟、时序平滑稳定 | 零样本能力顶尖、边缘精度极高、速度更快 |
| 核心劣势 | 相对深度(无绝对尺度)、新场景可能偏差 | 绝对深度需额外标定、极端场景偶有误差 |
| 深度类型 | 相对深度(归一化) | 相对深度(默认)/ 绝对深度(ZoeDepth 版) |
| 边缘清晰度 | 良好 | 顶尖(V2 大幅优化) |
| 时序一致性 | 优秀(视频版专门优化) | 优秀(Video Depth Anything 版) |
| 处理速度 | 中等 | 快(V2 优化推理) |
| 显存需求 | 6--8GB | 6--8GB |
| ComfyUI 支持 | ⭐⭐⭐⭐⭐ 最完善 | ⭐⭐⭐⭐⭐ 快速跟进 |
| 开源协议 | MIT(可商用) | Apache 2.0(可商用) |

4.8.5 深度图的应用方向

|----------------|----------------------------------|----------------------------------|
| 应用 | 说明 | 配合工具 |
| 视频生成结构控制 | 用深度图作为 ControlNet 条件,控制生成视频的空间层次 | ControlNet Depth + ComfyUI 视频工作流 |
| 3D 视差效果 | 基于深度图生成立体视差,制作 3D 视频/VR 内容 | 深度图 → 左右眼偏移 → 3D 合成 |
| 背景虚化/景深模拟 | 根据深度选择性模糊背景,模拟大光圈效果 | 深度图 → 高斯模糊蒙版 |
| AR/VR 内容制作 | 为真实视频添加深度层,实现虚拟物体遮挡和放置 | ARKit/ARCore + 深度序列 |
| 3D 场景重建 | 多帧深度图融合,重建稀疏/稠密 3D 点云 | COLMAP + 深度先验 |
| 视频修复/补全 | 利用深度信息指导缺失区域修复 | 深度引导的图像修复 |
| 运动模糊模拟 | 根据深度分层施加不同强度运动模糊 | 深度分层 + 运动模糊滤镜 |

4.8.6 在 ComfyUI 中的使用

方式一:单帧深度提取(图像工作流)

方式二:视频深度序列提取

方式三:深度图用于视频生成控制

方式四:深度 + 视频超分联合优化

ComfyUI 相关节点包

|------------------------------|-----------------------------------|------------------------------------------------|
| 节点包 | 功能 | GitHub 地址 |
| ComfyUI-Depth-Anything | Depth Anything V1/V2 节点 | github.com/cubiq/ComfyUI-Depth-Anything |
| ComfyUI-MiDaS | MiDaS 深度估计节点 | 社区节点包 |
| ComfyUI-ControlNet-Aux | 含多种预处理器(MiDaS/Depth Anything/Zoe) | github.com/Fannovel16/comfyui_controlnet_aux |
| ComfyUI-VideoHelperSuite | 视频拆帧/合帧 | github.com/Kosinkadjk/ComfyUI-VideoHelperSuite |

4.8.7 使用技巧

|-----------|-----------------------------------------------------|
| 技巧 | 说明 |
| 模型选择 | 通用场景 Depth Anything V2,需要绝对深度选 ZoeDepth,快速预览选 MiDaS |
| 时序一致性 | 视频深度务必使用时序优化版本(Video Depth Anything),单帧模型逐帧处理会闪烁 |
| 分辨率匹配 | 深度图分辨率建议与生成视频一致,避免缩放失真 |
| 边缘增强 | V2 边缘已很清晰,如需更强边缘可配合 Canny ControlNet |
| 深度归一化 | 不同模型输出深度范围不同,使用前先归一化到 0--255 或 0--1 |
| 多帧融合 | 长视频分段处理,每段保持时序连续,段间接缝处额外平滑 |
| 与光流配合 | 大运动视频先光流稳定再深度估计,减少运动模糊影响 |
| 反向使用 | 深度图可反转为"远=白、近=黑",依具体应用需求调整 |
| 批量导出 | 深度序列导出为 PNG 序列或 MP4,方便其他软件调用 |

4.8.8 模型存放路径

|-------------------------|-----------------------------------------------|
| 模型类型 | 存放路径 |
| MiDaS 权重 | ComfyUI/models/midas/ 或 ComfyUI/models/depth/ |
| Depth Anything V1/V2 权重 | ComfyUI/models/depth_anything/ |
| ZoeDepth 权重 | ComfyUI/models/zoedepth/ |
| DPT 编码器 | ComfyUI/models/dpt/ |

4.8.9 下载资源

|---------------------------------|----------------------------------------------|------------------|
| 平台 | 地址 | 说明 |
| GitHub Depth Anything | github.com/DepthAnything/Depth-Anything | 官方仓库,V1/V2 模型和代码 |
| GitHub MiDaS | github.com/isl-org/MiDaS | Intel ISL 官方仓库 |
| Hugging Face Depth Anything | huggingface.co/depth-anything | 官方模型下载 |
| Hugging Face MiDaS | huggingface.co/isl-org/MiDaS | MiDaS 官方模型 |
| ComfyUI-ControlNet-Aux | github.com/Fannovel16/comfyui_controlnet_aux | 含深度估计预处理器 |
| Civitai | civitai.com | 社区整理的工作流 |

一句话总结

视频深度估计是 ComfyUI 视频工作流的"空间之眼" ------MiDaS 以成熟的时序平滑成为可靠基石,Depth Anything V2 则以顶尖的零样本能力和边缘精度成为当前首选。深度图不仅能让 AI 理解"哪里近、哪里远",更是视频生成控制、3D 效果制作、AR/VR 内容创作的核心数据,是从二维平面走向三维空间的桥梁。

相关推荐
wuhui21005 天前
ComfyUI 快速文生图模型生成
大模型·comfyui
jiayong236 天前
AI工作流实现原理深度解析
人工智能·comfyui·工作流·coze
西安老张(AIGC&ComfyUI)8 天前
第006章:ComfyUI图片绘制常用大模型介绍
人工智能·aigc·comfyui
love530love9 天前
【笔记】ComfyUI 源码部署版更新后一键修复:从手动补丁到自动化工作流
运维·人工智能·windows·笔记·python·自动化·comfyui
wj30558537823 天前
课程 1:WSL + uv + ComfyUI 环境选择说明
python·wsl·cuda·uv·comfyui
wj30558537823 天前
课程 2:使用 uv 安装 ComfyUI
python·uv·comfyui
wj30558537824 天前
课程 9:模型测试记录与 Prompt 策略
linux·人工智能·python·comfyui
雪狼之夜25 天前
comfyui安装(非整合包,直装)-图文教程
comfyui
wj3055853781 个月前
课程 5:将官方 LTX-2.3 工作流改造成 GGUF 主模型工作流
python·cuda·comfyui