【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

【AI学习-comfyUI学习-第二十三-法线贴图工作流-depth 结构+MiDaS 法线-各个部分学习】

1,前言

最近,学习comfyUI,这也是AI的一部分,想将相关学习到的东西尽可能记录下来。

2,说明

1,第二十三-法线贴图工作流

这是一个:用 Depth 锁"空间层次",用 Normal 提供"表面方向提示",但最终让 Prompt + 模型负责"画好看"的平衡型工作流。

bash 复制代码
真实城市照片
 ├─→ DepthAnything / depth 结构(远近)
 ├─→ Normal(表面方向,弱)
 ↓
ControlNet(Depth 主 + Normal 辅)
 ↓
Prompt(语义主导)
 ↓
KSampler(生成)
 ↓
VAE → 最终图像
  • 几何 = 辅助

  • 语义 = 主导

  • 结构不乱,但允许"画"

2,第二十三节-法线贴图2工作流-MiDaS 法线

用原始照片 → 提取"弱法线几何提示" → 同时用深度锁定整体结构 → 在 SDXL 采样过程中前期受控、后期释放,让模型生成"写实但不僵硬"的城市街景图

bash 复制代码
原始图像
 ├─→ MiDaS 法线(弱约束)
 ├─→ Depth(强结构)
 └─→ VAE 编码 → Latent
            ↓
        ControlNet(时间控制)
            ↓
        KSampler 采样
            ↓
        VAE 解码 → 最终图

适用地方:

  • 合成街景数据

  • 自动驾驶 / 城市感知

  • 检测模型数据增强

  • 论文 / 项目 demo

不适用地方:

  • 风格插画

  • 二次元

  • 强艺术风格迁移

3,流程

1-第二十三-法线贴图工作流

本工作流以深度约束为主、法线约束为辅,在保证城市空间层次一致性的同时,保留扩散模型的视觉生成自由度,从而实现结构稳定且视觉可读的城市街景生成。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

2-第二十三-法线贴图2工作流

这套工作流通过 MiDaS 提供弱法线方向提示、Depth ControlNet 锁定整体几何结构,并通过 ControlNet 的时间衰减机制,仅在采样早期约束模型,从而在保证城市空间结构一致性的同时,避免过度几何绑定,生成更自然、可用于工程场景的写实图像。

(1)调用模块

(2)输出 提示词

bash 复制代码
modern Japanese city commercial district,
large glass office buildings,
pedestrian bridge with people,
urban street scene,
realistic architecture,
documentary photography style

(3)生成图片

(1)原图片

(2)生成图片

(4)结构说明

4,模块部分说明

1 BAE 法线图预处理(comfyui_controlnet_aux)

这个节点在干嘛?

从原图估计"表面朝向",输出 RGB 法线图(紫蓝绿那张)。

注意一个关键点(很重要):

你这里的法线:

  • ❌ 不是当"主约束"
  • ✅ 只是作为弱几何提示

👉 它的作用是:

  • 提醒模型哪里是立面
  • 哪里是桥面
  • 哪里是竖直结构

而不是:

  • "你必须照着这条线画"

2 Depth ControlNet(真正的主约束)

节点

复制代码
controlnet-depth-sdxl / sd1.5

它负责什么?

锁定"前后关系 + 多层空间结构"

在这张图里:

  • 建筑在后
  • 高架桥在中
  • 人群在前

OK 的输入图**,没有问题:

  • 城市结构明确
  • 前中后景清楚
  • 建筑线条规则

2️⃣ MiDaS 法向预处理器(❗问题起点)

用的是:

MiDaS 法线 / 类法线预处理器

这个模块本质是:

❌ 不是"真实法线"

✅ 是 深度梯度 + 方向估计的伪法线

也就是说,它输出的这种 五颜六色的法线图

  • 对"自然物体"还行
  • 玻璃幕墙 + 城市规则结构极容易产生高频噪声

现在看到的那张法线图里已经有:

  • 横向拉丝
  • 竖向抖动
  • 深度跳变

5,细节部分

1,失败的设计

之前有很多失败的设计,这里只是学习 ,所以不会太深究这些

项目 之前失败 现在成功
几何数量 多且都强 主次分明
法线质量 碎、噪声大 城市立面规则
Prompt 明确
模型 随意 城市友好
自由度 几乎没有 留了空间

这套工作流的"正确定位"

✅ 非常适合

  • 城市合成数据
  • 建筑结构保持生成
  • 城市数字孪生前处理
  • 论文 / 专利里的"结构约束生成模块"

❌ 不适合

  • 情绪艺术
  • 抽象风格
  • 二次元插画

6,工作流链接

(1)
https://download.csdn.net/download/qq_22146161/92495037

(2)https://download.csdn.net/download/qq_22146161/92495041

7,总结

不断学习摸索中。

相关推荐
文心快码BaiduComate1 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构
风象南1 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia2 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮3 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬3 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia3 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区4 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两6 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪7 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain