【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

1,前言

最近,学习comfyUI,这也是AI的一部分,想将相关学习到的东西尽可能记录下来。

2,说明

1,第二十三-法线贴图工作流

这是一个:用 Depth 锁"空间层次",用 Normal 提供"表面方向提示",但最终让 Prompt + 模型负责"画好看"的平衡型工作流。

bash 复制代码
真实城市照片
 ├─→ DepthAnything / depth 结构(远近)
 ├─→ Normal(表面方向,弱)
 ↓
ControlNet(Depth 主 + Normal 辅)
 ↓
Prompt(语义主导)
 ↓
KSampler(生成)
 ↓
VAE → 最终图像
  • 几何 = 辅助

  • 语义 = 主导

  • 结构不乱,但允许"画"

2,第二十三节-法线贴图2工作流-MiDaS 法线

用原始照片 → 提取"弱法线几何提示" → 同时用深度锁定整体结构 → 在 SDXL 采样过程中前期受控、后期释放,让模型生成"写实但不僵硬"的城市街景图

bash 复制代码
原始图像
 ├─→ MiDaS 法线(弱约束)
 ├─→ Depth(强结构)
 └─→ VAE 编码 → Latent
            ↓
        ControlNet(时间控制)
            ↓
        KSampler 采样
            ↓
        VAE 解码 → 最终图

适用地方:

  • 合成街景数据

  • 自动驾驶 / 城市感知

  • 检测模型数据增强

  • 论文 / 项目 demo

不适用地方:

  • 风格插画

  • 二次元

  • 强艺术风格迁移

3,流程

1-第二十三-法线贴图工作流

本工作流以深度约束为主、法线约束为辅,在保证城市空间层次一致性的同时,保留扩散模型的视觉生成自由度,从而实现结构稳定且视觉可读的城市街景生成。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

2-第二十三-法线贴图2工作流

这套工作流通过 MiDaS 提供弱法线方向提示、Depth ControlNet 锁定整体几何结构,并通过 ControlNet 的时间衰减机制,仅在采样早期约束模型,从而在保证城市空间结构一致性的同时,避免过度几何绑定,生成更自然、可用于工程场景的写实图像。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

(4)结构说明

4,模块部分说明

1 BAE 法线图预处理(comfyui_controlnet_aux)

这个节点在干嘛?

从原图估计"表面朝向",输出 RGB 法线图(紫蓝绿那张)。

注意一个关键点(很重要):

你这里的法线:

  • ❌ 不是当"主约束"
  • ✅ 只是作为弱几何提示

👉 它的作用是:

  • 提醒模型哪里是立面
  • 哪里是桥面
  • 哪里是竖直结构

而不是:

  • "你必须照着这条线画"

2 Depth ControlNet(真正的主约束)

节点

复制代码
controlnet-depth-sdxl / sd1.5

它负责什么?

锁定"前后关系 + 多层空间结构"

在这张图里:

  • 建筑在后
  • 高架桥在中
  • 人群在前

OK 的输入图**,没有问题:

  • 城市结构明确
  • 前中后景清楚
  • 建筑线条规则

2️⃣ MiDaS 法向预处理器(❗问题起点)

用的是:

MiDaS 法线 / 类法线预处理器

这个模块本质是:

❌ 不是"真实法线"

✅ 是 深度梯度 + 方向估计的伪法线

也就是说,它输出的这种 五颜六色的法线图

  • 对"自然物体"还行
  • 玻璃幕墙 + 城市规则结构极容易产生高频噪声

现在看到的那张法线图里已经有:

  • 横向拉丝
  • 竖向抖动
  • 深度跳变

5,细节部分

1,失败的设计

之前有很多失败的设计,这里只是学习 ,所以不会太深究这些

项目 之前失败 现在成功
几何数量 多且都强 主次分明
法线质量 碎、噪声大 城市立面规则
Prompt 明确
模型 随意 城市友好
自由度 几乎没有 留了空间

这套工作流的"正确定位"

✅ 非常适合

  • 城市合成数据
  • 建筑结构保持生成
  • 城市数字孪生前处理
  • 论文 / 专利里的"结构约束生成模块"

❌ 不适合

  • 情绪艺术
  • 抽象风格
  • 二次元插画

6,工作流链接

(1)
https://download.csdn.net/download/qq_22146161/92495037

(2)https://download.csdn.net/download/qq_22146161/92495041

7,总结

不断学习摸索中。

相关推荐
中科天工2 小时前
智能工厂的投资回报分析是什么?主要包含哪些关键因素?
大数据·人工智能·智能
清风夜半2 小时前
Z-Image-Turbo本地部署(附Mac Windows版教程&源码)
人工智能
前沿观讯2 小时前
2025年医药行业AI排班系统测评:实验室与产线的精准调度
人工智能
SYC_MORE2 小时前
无需 OCR,多模态大模型如何“读懂” PDF?——基于 GLM-4V-Flash 的智能文档解析原理剖析
人工智能·pdf·ocr
Nan_Shu_6142 小时前
学习:Java (1)
java·开发语言·学习
正运动技术2 小时前
正运动技术喜获机器人应用典型案例奖!
人工智能·正运动技术·运动控制器·运动控制卡·正运动·机器视觉运动控制一体机
互联网江湖2 小时前
蚂蚁阿福引爆AI健康赛道,美年健康锚定AI健康智能体核心生态位
大数据·人工智能
青稞社区.2 小时前
小米大模型 Plus 团队提出BTL-UI:基于直觉-思考-关联的GUI Agent推理
人工智能·ui
小鸡吃米…3 小时前
Python的人工智能-机器学习
人工智能·python·机器学习