【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

1,前言

最近,学习comfyUI,这也是AI的一部分,想将相关学习到的东西尽可能记录下来。

2,说明

1,第二十三-法线贴图工作流

这是一个:用 Depth 锁"空间层次",用 Normal 提供"表面方向提示",但最终让 Prompt + 模型负责"画好看"的平衡型工作流。

bash 复制代码
真实城市照片
 ├─→ DepthAnything / depth 结构(远近)
 ├─→ Normal(表面方向,弱)
 ↓
ControlNet(Depth 主 + Normal 辅)
 ↓
Prompt(语义主导)
 ↓
KSampler(生成)
 ↓
VAE → 最终图像
  • 几何 = 辅助

  • 语义 = 主导

  • 结构不乱,但允许"画"

2,第二十三节-法线贴图2工作流-MiDaS 法线

用原始照片 → 提取"弱法线几何提示" → 同时用深度锁定整体结构 → 在 SDXL 采样过程中前期受控、后期释放,让模型生成"写实但不僵硬"的城市街景图

bash 复制代码
原始图像
 ├─→ MiDaS 法线(弱约束)
 ├─→ Depth(强结构)
 └─→ VAE 编码 → Latent
            ↓
        ControlNet(时间控制)
            ↓
        KSampler 采样
            ↓
        VAE 解码 → 最终图

适用地方:

  • 合成街景数据

  • 自动驾驶 / 城市感知

  • 检测模型数据增强

  • 论文 / 项目 demo

不适用地方:

  • 风格插画

  • 二次元

  • 强艺术风格迁移

3,流程

1-第二十三-法线贴图工作流

本工作流以深度约束为主、法线约束为辅,在保证城市空间层次一致性的同时,保留扩散模型的视觉生成自由度,从而实现结构稳定且视觉可读的城市街景生成。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

2-第二十三-法线贴图2工作流

这套工作流通过 MiDaS 提供弱法线方向提示、Depth ControlNet 锁定整体几何结构,并通过 ControlNet 的时间衰减机制,仅在采样早期约束模型,从而在保证城市空间结构一致性的同时,避免过度几何绑定,生成更自然、可用于工程场景的写实图像。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

(4)结构说明

4,模块部分说明

1 BAE 法线图预处理(comfyui_controlnet_aux)

这个节点在干嘛?

从原图估计"表面朝向",输出 RGB 法线图(紫蓝绿那张)。

注意一个关键点(很重要):

你这里的法线:

  • ❌ 不是当"主约束"
  • ✅ 只是作为弱几何提示

👉 它的作用是:

  • 提醒模型哪里是立面
  • 哪里是桥面
  • 哪里是竖直结构

而不是:

  • "你必须照着这条线画"

2 Depth ControlNet(真正的主约束)

节点

复制代码
controlnet-depth-sdxl / sd1.5

它负责什么?

锁定"前后关系 + 多层空间结构"

在这张图里:

  • 建筑在后
  • 高架桥在中
  • 人群在前

OK 的输入图**,没有问题:

  • 城市结构明确
  • 前中后景清楚
  • 建筑线条规则

2️⃣ MiDaS 法向预处理器(❗问题起点)

用的是:

MiDaS 法线 / 类法线预处理器

这个模块本质是:

❌ 不是"真实法线"

✅ 是 深度梯度 + 方向估计的伪法线

也就是说,它输出的这种 五颜六色的法线图

  • 对"自然物体"还行
  • 玻璃幕墙 + 城市规则结构极容易产生高频噪声

现在看到的那张法线图里已经有:

  • 横向拉丝
  • 竖向抖动
  • 深度跳变

5,细节部分

1,失败的设计

之前有很多失败的设计,这里只是学习 ,所以不会太深究这些

项目 之前失败 现在成功
几何数量 多且都强 主次分明
法线质量 碎、噪声大 城市立面规则
Prompt 明确
模型 随意 城市友好
自由度 几乎没有 留了空间

这套工作流的"正确定位"

✅ 非常适合

  • 城市合成数据
  • 建筑结构保持生成
  • 城市数字孪生前处理
  • 论文 / 专利里的"结构约束生成模块"

❌ 不适合

  • 情绪艺术
  • 抽象风格
  • 二次元插画

6,工作流链接

(1)
https://download.csdn.net/download/qq_22146161/92495037

(2)https://download.csdn.net/download/qq_22146161/92495041

7,总结

不断学习摸索中。

相关推荐
HIT_Weston6 小时前
45、【Agent】【OpenCode】本地代理分析(请求&接收回调)
人工智能·agent·opencode
逻辑君6 小时前
认知神经科学研究报告【20260010】
人工智能·深度学习·神经网络·机器学习
星河耀银海7 小时前
远控体验分享:安全与实用性参考
人工智能·安全·微服务
企业架构师老王7 小时前
2026企业架构演进:科普Agent(龙虾)如何从“极客玩具”走向实在Agent规模化落地?
人工智能·ai·架构
GreenTea7 小时前
一文搞懂Harness Engineering与Meta-Harness
前端·人工智能·后端
鬼先生_sir7 小时前
Spring AI Alibaba 1.1.2.2 完整知识点库
人工智能·ai·agent·源码解析·springai
深念Y7 小时前
豆包AI能力集成方案:基于会话管理的API网关设计
人工智能
龙文浩_7 小时前
Attention Mechanism: From Theory to Code
人工智能·深度学习·神经网络·学习·自然语言处理
ulimate_7 小时前
八卡算力、三个Baseline算法(WALLOSS、pi0、DreamZero)
人工智能
深小乐7 小时前
AI 周刊【2026.04.06-04.12】:Anthropic 藏起最强模型、AI 社会矛盾激化、"欢乐马"登顶
人工智能