Comfyui 教程-14 - 技术栈

4.8 视频深度估计模型简介

4.8.1 定义

视频深度估计（Video Depth Estimation）是一种通过 AI 算法从视频序列中逐帧推断场景三维深度信息 的技术，输出与视频对应的深度图序列（Depth Map Sequence）。深度图以灰度表示远近（白=近，黑=远），可用于视频生成的结构控制、3D 效果制作、AR/VR 内容创作等。

简单理解：视频深度估计是 ComfyUI 视频工作流的**"三维感知器"**------让 AI 理解视频里每个像素离镜头有多远，从而精准控制空间层次、实现立体效果。

4.8.2 核心原理

|----------------------|------------------------|
| 技术 | 说明 |
| 单目深度估计 | 从单张/单视角图像推断深度，无需立体相机 |
| 时序一致性约束 | 利用帧间连续性稳定深度输出，避免帧间深度跳动 |
| 多尺度特征融合 | 融合不同分辨率的特征，兼顾全局结构和局部细节 |
| Transformer 全局建模 | 用注意力机制捕捉长距离空间关系 |
| 视频光流辅助 | 结合光流信息对齐帧间深度，保持时序稳定 |

深度图示意 ：

4.8.3 主流视频深度估计模型

|---------------------------------------|-------------------------|-----------|----------|--------|----------|----------------------------|---------------|
| 模型 | 架构 | 输出分辨率 | 显存需求 | 速度 | 质量评级 | 特点 | 适用场景 |
| MiDaS（视频版） | DPT-Large / BEiT 编码器 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐ | 老牌经典，跨数据集泛化强，支持视频时序平滑，生态成熟 | 通用深度估计、快速预览 |
| MiDaS v3.1 | DPT-Hybrid 优化 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 最新版，精度和速度平衡更好 | 高质量深度图生成 |
| Depth Anything V1 | ViT 编码器 + 大规模数据训练 | 与输入一致 | 中 | 快 | ⭐⭐⭐⭐⭐ | 2024 爆款，零样本泛化能力极强，任意场景深度估计 | 通用场景、复杂环境 |
| Depth Anything V2 | V2 优化版 + 更精准度量 | 与输入一致 | 中 | 快 | ⭐⭐⭐⭐⭐ | 当前开源 SOTA，精度更高、边缘更清晰、时序更稳定 | 专业级深度估计首选 |
| ZoeDepth | 结合相对深度 + 绝对深度 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 输出绝对深度值（米级），非仅相对关系 | 需要真实距离信息的应用 |
| DPT（Dense Prediction Transformer） | Transformer 编码器 | 与输入一致 | 高 | 慢 | ⭐⭐⭐⭐⭐ | 学术基准模型，精度高但慢 | 研究、高精度需求 |
| Adabins | 自适应分箱回归 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐ | 室内场景表现优秀 | 室内导航、家具布置 |
| Video Depth Anything | Depth Anything + 视频时序模块 | 与输入一致 | 中 | 中等 | ⭐⭐⭐⭐⭐ | 专为视频设计，时序一致性极佳 | 视频生成控制、连续深度序列 |
| Consistent Video Depth | 多帧联合优化 + 几何约束 | 与输入一致 | 高 | 慢 | ⭐⭐⭐⭐⭐ | 全局几何一致性最强，支持相机位姿估计 | 3D 重建、NeRF 输入 |

4.8.4 两大主流模型详细对比

|----------------|---------------------|----------------------------|
| 维度 | MiDaS（视频版） | Depth Anything V2 |
| 开发方 | Intel ISL 实验室 | 香港大学 + 字节跳动 |
| 发布时间 | 2020--2023（持续更新） | 2024（V1）/ 2025（V2） |
| 核心优势 | 跨数据集泛化强、生态成熟、时序平滑稳定 | 零样本能力顶尖、边缘精度极高、速度更快 |
| 核心劣势 | 相对深度（无绝对尺度）、新场景可能偏差 | 绝对深度需额外标定、极端场景偶有误差 |
| 深度类型 | 相对深度（归一化） | 相对深度（默认）/ 绝对深度（ZoeDepth 版） |
| 边缘清晰度 | 良好 | 顶尖（V2 大幅优化） |
| 时序一致性 | 优秀（视频版专门优化） | 优秀（Video Depth Anything 版） |
| 处理速度 | 中等 | 快（V2 优化推理） |
| 显存需求 | 6--8GB | 6--8GB |
| ComfyUI 支持 | ⭐⭐⭐⭐⭐ 最完善 | ⭐⭐⭐⭐⭐ 快速跟进 |
| 开源协议 | MIT（可商用） | Apache 2.0（可商用） |

4.8.5 深度图的应用方向

|----------------|----------------------------------|----------------------------------|
| 应用 | 说明 | 配合工具 |
| 视频生成结构控制 | 用深度图作为 ControlNet 条件，控制生成视频的空间层次 | ControlNet Depth + ComfyUI 视频工作流 |
| 3D 视差效果 | 基于深度图生成立体视差，制作 3D 视频/VR 内容 | 深度图 → 左右眼偏移 → 3D 合成 |
| 背景虚化/景深模拟 | 根据深度选择性模糊背景，模拟大光圈效果 | 深度图 → 高斯模糊蒙版 |
| AR/VR 内容制作 | 为真实视频添加深度层，实现虚拟物体遮挡和放置 | ARKit/ARCore + 深度序列 |
| 3D 场景重建 | 多帧深度图融合，重建稀疏/稠密 3D 点云 | COLMAP + 深度先验 |
| 视频修复/补全 | 利用深度信息指导缺失区域修复 | 深度引导的图像修复 |
| 运动模糊模拟 | 根据深度分层施加不同强度运动模糊 | 深度分层 + 运动模糊滤镜 |

4.8.6 在 ComfyUI 中的使用

方式一：单帧深度提取（图像工作流）

方式二：视频深度序列提取

方式三：深度图用于视频生成控制

方式四：深度 + 视频超分联合优化

ComfyUI 相关节点包 ：

|------------------------------|-----------------------------------|------------------------------------------------|
| 节点包 | 功能 | GitHub 地址 |
| ComfyUI-Depth-Anything | Depth Anything V1/V2 节点 | github.com/cubiq/ComfyUI-Depth-Anything |
| ComfyUI-MiDaS | MiDaS 深度估计节点 | 社区节点包 |
| ComfyUI-ControlNet-Aux | 含多种预处理器（MiDaS/Depth Anything/Zoe） | github.com/Fannovel16/comfyui_controlnet_aux |
| ComfyUI-VideoHelperSuite | 视频拆帧/合帧 | github.com/Kosinkadjk/ComfyUI-VideoHelperSuite |

4.8.7 使用技巧

|-----------|-----------------------------------------------------|
| 技巧 | 说明 |
| 模型选择 | 通用场景 Depth Anything V2，需要绝对深度选 ZoeDepth，快速预览选 MiDaS |
| 时序一致性 | 视频深度务必使用时序优化版本（Video Depth Anything），单帧模型逐帧处理会闪烁 |
| 分辨率匹配 | 深度图分辨率建议与生成视频一致，避免缩放失真 |
| 边缘增强 | V2 边缘已很清晰，如需更强边缘可配合 Canny ControlNet |
| 深度归一化 | 不同模型输出深度范围不同，使用前先归一化到 0--255 或 0--1 |
| 多帧融合 | 长视频分段处理，每段保持时序连续，段间接缝处额外平滑 |
| 与光流配合 | 大运动视频先光流稳定再深度估计，减少运动模糊影响 |
| 反向使用 | 深度图可反转为"远=白、近=黑"，依具体应用需求调整 |
| 批量导出 | 深度序列导出为 PNG 序列或 MP4，方便其他软件调用 |

4.8.8 模型存放路径

|-------------------------|-----------------------------------------------|
| 模型类型 | 存放路径 |
| MiDaS 权重 | ComfyUI/models/midas/ 或 ComfyUI/models/depth/ |
| Depth Anything V1/V2 权重 | ComfyUI/models/depth_anything/ |
| ZoeDepth 权重 | ComfyUI/models/zoedepth/ |
| DPT 编码器 | ComfyUI/models/dpt/ |

4.8.9 下载资源

|---------------------------------|----------------------------------------------|------------------|
| 平台 | 地址 | 说明 |
| GitHub Depth Anything | github.com/DepthAnything/Depth-Anything | 官方仓库，V1/V2 模型和代码 |
| GitHub MiDaS | github.com/isl-org/MiDaS | Intel ISL 官方仓库 |
| Hugging Face Depth Anything | huggingface.co/depth-anything | 官方模型下载 |
| Hugging Face MiDaS | huggingface.co/isl-org/MiDaS | MiDaS 官方模型 |
| ComfyUI-ControlNet-Aux | github.com/Fannovel16/comfyui_controlnet_aux | 含深度估计预处理器 |
| Civitai | civitai.com | 社区整理的工作流 |

一句话总结

视频深度估计是 ComfyUI 视频工作流的"空间之眼" ------MiDaS 以成熟的时序平滑成为可靠基石，Depth Anything V2 则以顶尖的零样本能力和边缘精度成为当前首选。深度图不仅能让 AI 理解"哪里近、哪里远"，更是视频生成控制、3D 效果制作、AR/VR 内容创作的核心数据，是从二维平面走向三维空间的桥梁。