【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

1,前言

最近,学习comfyUI,这也是AI的一部分,想将相关学习到的东西尽可能记录下来。

2,说明

1,第二十三-法线贴图工作流

这是一个:用 Depth 锁"空间层次",用 Normal 提供"表面方向提示",但最终让 Prompt + 模型负责"画好看"的平衡型工作流。

bash 复制代码
真实城市照片
 ├─→ DepthAnything / depth 结构(远近)
 ├─→ Normal(表面方向,弱)
 ↓
ControlNet(Depth 主 + Normal 辅)
 ↓
Prompt(语义主导)
 ↓
KSampler(生成)
 ↓
VAE → 最终图像
  • 几何 = 辅助

  • 语义 = 主导

  • 结构不乱,但允许"画"

2,第二十三节-法线贴图2工作流-MiDaS 法线

用原始照片 → 提取"弱法线几何提示" → 同时用深度锁定整体结构 → 在 SDXL 采样过程中前期受控、后期释放,让模型生成"写实但不僵硬"的城市街景图

bash 复制代码
原始图像
 ├─→ MiDaS 法线(弱约束)
 ├─→ Depth(强结构)
 └─→ VAE 编码 → Latent
            ↓
        ControlNet(时间控制)
            ↓
        KSampler 采样
            ↓
        VAE 解码 → 最终图

适用地方:

  • 合成街景数据

  • 自动驾驶 / 城市感知

  • 检测模型数据增强

  • 论文 / 项目 demo

不适用地方:

  • 风格插画

  • 二次元

  • 强艺术风格迁移

3,流程

1-第二十三-法线贴图工作流

本工作流以深度约束为主、法线约束为辅,在保证城市空间层次一致性的同时,保留扩散模型的视觉生成自由度,从而实现结构稳定且视觉可读的城市街景生成。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

2-第二十三-法线贴图2工作流

这套工作流通过 MiDaS 提供弱法线方向提示、Depth ControlNet 锁定整体几何结构,并通过 ControlNet 的时间衰减机制,仅在采样早期约束模型,从而在保证城市空间结构一致性的同时,避免过度几何绑定,生成更自然、可用于工程场景的写实图像。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

(4)结构说明

4,模块部分说明

1 BAE 法线图预处理(comfyui_controlnet_aux)

这个节点在干嘛?

从原图估计"表面朝向",输出 RGB 法线图(紫蓝绿那张)。

注意一个关键点(很重要):

你这里的法线:

  • ❌ 不是当"主约束"
  • ✅ 只是作为弱几何提示

👉 它的作用是:

  • 提醒模型哪里是立面
  • 哪里是桥面
  • 哪里是竖直结构

而不是:

  • "你必须照着这条线画"

2 Depth ControlNet(真正的主约束)

节点

复制代码
controlnet-depth-sdxl / sd1.5

它负责什么?

锁定"前后关系 + 多层空间结构"

在这张图里:

  • 建筑在后
  • 高架桥在中
  • 人群在前

OK 的输入图**,没有问题:

  • 城市结构明确
  • 前中后景清楚
  • 建筑线条规则

2️⃣ MiDaS 法向预处理器(❗问题起点)

用的是:

MiDaS 法线 / 类法线预处理器

这个模块本质是:

❌ 不是"真实法线"

✅ 是 深度梯度 + 方向估计的伪法线

也就是说,它输出的这种 五颜六色的法线图

  • 对"自然物体"还行
  • 玻璃幕墙 + 城市规则结构极容易产生高频噪声

现在看到的那张法线图里已经有:

  • 横向拉丝
  • 竖向抖动
  • 深度跳变

5,细节部分

1,失败的设计

之前有很多失败的设计,这里只是学习 ,所以不会太深究这些

项目 之前失败 现在成功
几何数量 多且都强 主次分明
法线质量 碎、噪声大 城市立面规则
Prompt 明确
模型 随意 城市友好
自由度 几乎没有 留了空间

这套工作流的"正确定位"

✅ 非常适合

  • 城市合成数据
  • 建筑结构保持生成
  • 城市数字孪生前处理
  • 论文 / 专利里的"结构约束生成模块"

❌ 不适合

  • 情绪艺术
  • 抽象风格
  • 二次元插画

6,工作流链接

(1)
https://download.csdn.net/download/qq_22146161/92495037

(2)https://download.csdn.net/download/qq_22146161/92495041

7,总结

不断学习摸索中。

相关推荐
IT_陈寒16 小时前
SpringBoot自动配置揭秘:5个让开发效率翻倍的隐藏技巧
前端·人工智能·后端
2501_9181269117 小时前
学习所有6502写游戏存档的语句
汇编·嵌入式硬件·学习·游戏·个人开发
星空下的月光影子17 小时前
基于XGBoost的催化剂活性衰减预测与可解释性分析
人工智能·机器学习
天若有情67317 小时前
通用个性化推荐核心架构思路:从视频到电商的跨场景落地实践
人工智能·算法·架构·推流·个性化推荐·猜你喜欢
jay神17 小时前
基于YOLOv8的钢材表面缺陷检测系统
人工智能·算法·yolo·目标检测·计算机视觉
zzh9407717 小时前
Gemini 3.1 Pro 训练范式深度解析:合成数据、课程学习与多阶段优化的工程实践
人工智能·深度学习
xixixi7777717 小时前
2026 年 03 月 20 日 AI+通信+安全行业日报(来更新啦)
大数据·人工智能·安全·ai·大模型·通信
愚公搬代码17 小时前
【愚公系列】《剪映+DeepSeek+即梦:短视频制作》018-特效:轻松提升视频质感(知识拓展:轴线原则)
人工智能·音视频
sanshanjianke17 小时前
AI辅助网文创作理论研究笔记(五):测试环境的搭建和一些问题的讨论
人工智能·笔记·ai写作