stable diffusion实践操作-大模型介绍:SD的发展历史,SD1.5和SDXL之间的差别

大家有没有这样的困惑:在找模型时,老是会出现一些奇怪的标签,像 sd1.5、sdxl 之类的模型后缀,真让人摸不着头脑,一会儿 1.0,一会儿 1.5,一会儿 XL,完全搞不清楚状况。今天就来给大家好好讲讲,这些让人一头雾水的标签究竟是什么意思。

首先,咱们得先了解一些与 SD 相关的基础知识。Stable Diffusion 是一种基于概率论的生成模型,通过特定算法进行训练的人工智能,它能够通过不断迭代与优化,生成高质量的图像和视频。

这一介绍揭示了 SD 的本质,它是一款持续更新的模型软件。在其发展进程中,SD 从 1.0 版本起不断推陈出新,截至目前,推出的版本号已经达到了3.5。当然关于3.5和flux之间的问题是下一次的内容,这次主要讲的是sd1.5和sdxl的历史。

先讲讲 sd 1.0 的发展历程。Stable Diffusion v1.0 于 2022 年 8 月首次公开发布,随后在一段时间内陆续有一些小版本更新,如 1.0 - 1.4 等。这些版本创新点不多,主要是在改进模型的性能与质量方面下功夫。到了 2022 年 10 月,持续时间较长的 sd1.5 版本模型正式推出。用过 sd 模型的朋友都知道,sd 在生成大尺寸图片时,常常会出现多重身的现象。这是因为模型训练时采用的是 512 * 512 的图片,一旦超出这个规格,AI 就会误判为要生成两张图片,所以才会有多重身的问题。

不得不说,1.5 版本发布的时机相当巧妙。在那段时间,由于 sd 的开源特性,与之匹配的插件层出不穷。因此,尽管 1.5 版本也是用 512 * 512 的图片训练出来的,但在丰富的生态插件助力下,制作较大像素的图片也毫无压力,而且还有各种各样的风格模型,所以 1.5 版本的生态在几个版本中是最为出色的。后续发布的 2.0 - 2.1 两个版本,虽然图片的采样数量持续增加,图片规格也提升到了 768 * 768,但始终难以取代 1.5 版本的地位。

直到 2023 年 8 月,sd 的开发公司又推出了 sdxl 版本的模型。

sdxl 与 sd1.5 存在诸多区别:

  1. 模型组合差异 :sd1.5 的生成模型仅有一个;而 sdxl 的生成模型有两个,能够灵活组合出图。其基础模型为 base 模型(负责潜空间放大),精修模型是 refiner 模型(负责细化放大)。
  2. 训练参数有别 :1.5 模型的训练参数为 9.8 亿,XL 的 base 模型有 35 亿参数,refiner 参数模型更是高达 65 亿。并且 1.5 训练的图片分辨率主要是 512 * 512,XL 的训练图片则是 1024 * 1024。训练参数与图像分辨率的不同,使得 XL 生成的图片分辨率更高,细节也更加丰富。
  3. 提示词写法优化 :sd1.5 主要使用短语提示词,而且需要添加诸如考虑更多提示词各部分权重、提升画质等与图片内容无关的提示词。例如,1.5 版本被人诟病最多的一点就是需要添加更多的 Lora 模型才能生成较好的图片。而 sdxl 既可以用短语也能用句子生成图片,无需质量词,对自然语言的理解能力更强。要知道,以往的 sd 都需要使用者学习各种复杂的提示词,还要善于运用各种插件才能生成可用的图片。用自然语言生成精美图片可是另一个 AI 绘画领域巨头 Midjourney 的看家本领,也是其每月收取 50 美金费用的资本所在,如今这道原本坚固的护城河已逐渐被瓦解。
  4. sdxl生成的图片展示:

总体而言,使用 sdxl 模型生成图片的良品率还是比较可观的。当然,这个良品率也存在一定的局限性。在生成真实图片时,我觉得用 sdxl 模型生成的底图,再结合 sd 经过调教的真实系 Lora 模型,效果会更好。而在动漫图片方面,借助 sdxl 的自然语言处理能力能够更轻松地得到理想的构图,再搭配动漫画风的模型,就能收获不错的成果。下次再来为大家介绍 sd 目前最为精彩的 sd3.5 大模型以及黑森林推出的 flux 大模型。

相关推荐
深科文库1 小时前
构建 MCP 服务器:第 3 部分 — 添加提示
服务器·python·chatgpt·langchain·prompt·aigc·agi
写代码的小阿帆2 小时前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
小马虎本人3 小时前
如果接口返回的数据特别慢?要怎么办?难道就要在当前页面一直等吗
前端·react.js·aigc
一只爱撸猫的程序猿3 小时前
构建一个简单的智能文档问答系统实例
数据库·spring boot·aigc
春末的南方城市6 小时前
Ctrl-Crash 助力交通安全:可控生成逼真车祸视频,防患于未然
人工智能·计算机视觉·自然语言处理·aigc·音视频
深科文库7 小时前
构建 MCP 服务器:第 4 部分 — 创建工具
python·chatgpt·prompt·aigc·agi·ai-native
墨风如雪8 小时前
AI理财新秀Kuvera-8B:同理心与钱袋子的秘密
aigc
春末的南方城市21 小时前
港科大&快手提出统一上下文视频编辑 UNIC,各种视频编辑任务一网打尽,还可进行多项任务组合!
人工智能·计算机视觉·stable diffusion·aigc·transformer
草梅友仁1 天前
AI 图片文字翻译与视频字幕翻译工具推荐 | 2025 年第 23 周草梅周报
开源·github·aigc
墨风如雪1 天前
Gemini 2.5 Pro:AI新王登基,炸裂来袭!
aigc