SD + Contronet，扩散模型V1.5+约束条件后续优化：保存Canny边缘图，便于视觉理解——stable diffusion项目学习笔记

前言

背景与需求

代码改进方案

运行过程：

前言

机器学习缺点之一：即不可解释性。最近，我在使用stable diffusion v1.5 +Contronet优化后(本篇是基于前面contronet继续优化)，链接如下：
Stable Diffusion + Contronet，调参实现LPIPS最优(带生成效果+指标对比)------项目学习记录-CSDN博客

由于++Contronet采用Canny边缘图作为约束条件++ ，而最终效果直接展示了++生成图像++ ，相当于视觉观察++对比只能对原图和生成图++ ，出于对可解释性的考虑和定性分析的需要，我决定++将中间图单独保存，这样可同时对比原图、边缘图、生成图，更利于理解生成的过程++。

使用 ControlNet 生成图像并保存中间 Canny 边缘图：代码改进与参数解析，我的思考和实现过程如下：

背景与需求

最近，我与一位朋友讨论了如何利用 ControlNet 模型基于原始图像的 Canny 边缘图生成图像。最初的代码已经++能够从输入图像生成边缘图并直接用于生成最终图像++ 。但朋友提出了一个新需求：希望++将中间生成的 Canny 边缘图保存到一个单独的文件夹++，以便后续对比原始图像、中间边缘图和最终生成图像。这个改进不仅便于调试，还能更清晰地观察生成过程的每一步。

代码改进方案

原始代码的核心逻辑是从文本文件读取图像路径和提示词，生成 Canny 边缘图后直接输入 ControlNet，最终保存生成图像。以下是我对代码做出的改进：

新增 Canny 边缘图保存路径

我引入了一个新的文件夹变量 canny_save_dir，用于存储生成的 Canny 边缘图。通过 os.makedirs 来确保该路径存在，用户可以根据需要自定义路径。如：

保存 Canny 边缘图

在生成 Canny 边缘图后，新增了保存步骤。边缘图会以原始图像文件名加 _canny 后缀保存，并通过循环检查避免文件名冲突：如下：

复制代码

canny_filename = image_name.replace(".jpg", "_canny.png")
canny_save_path = os.path.join(canny_save_dir, canny_filename)
if os.path.exists(canny_save_path):
    base_name = os.path.splitext(canny_filename)[0]
    j = 1
    while os.path.exists(os.path.join(canny_save_dir, f"{base_name}_{j}.png")):
        j += 1
    canny_save_path = os.path.join(canny_save_dir, f"{base_name}_{j}.png")
canny_image_pil.save(canny_save_path)
print(f"第 {i} 张 Canny 边缘图已保存为 {canny_save_path}")

这里，canny_image_pil 是通过 Image.fromarray 从 OpenCV 的边缘图转换得到的 PIL 图像，确保与 ControlNet 的输入格式兼容。

完整流程

改进后的代码保留了原有功能，同时新增了中间结果保存。最终输出包括三个文件夹：
- image_dir：原始图像
- canny_save_dir：Canny 边缘图
- save_dir：ControlNet 生成图像

这里，迭代步数依旧采用50步，contrnet强度设置为1，guidance_scale=7.5,前篇没有介绍guidance_scale这个参数，可能有不理解。
解释：

`guidance_scale=7.5` 是 ControlNet 中++控制生成图像与提示词一致性的参数++ ，全称是 "Classifier-Free Guidance Scale"。它决定了模型在生成时对文本提示的遵循程度。值越高（如 7.5），生成的图像越贴近提示描述，细节更符合预期；值越低，图像更自由，可能偏离提示。++通常设在 7-10 之间++ ，7.5 是一个平衡点，既保证提示的指导性，又保留一定创造性。生动地讲：调整它可以控制生成结果的"听话"程度！