Stable Diffusion 常用大模型及其特点

SD(Stable Diffusion)的常用大模型及其特点可以归纳如下:

一、基础大模型

  1. SD 1.x

    • 特点:Stable Diffusion的早期版本,主要用于图像生成任务。这里的1.x表示1系列的主要版本,x是一个变量,表示具体的子版本。
  2. SD 2.x

    • 特点:SD 1.x的后续版本,对模型进行了优化和改进,提高了图像生成质量和速度。2.x表示2系列的主要版本,x同样是一个变量,表示具体的子版本。
  3. SD 1.5

    • 特点:在SD 1.x基础上进行优化的版本,在文本到图像生成任务上表现尤为出色,能够生成更符合用户需求的图像。
  4. SDXL 1.0

    • 特点:在SD 1.5基础上进一步优化的版本,采用了"对抗性扩散蒸馏"(Adversarial Diffusion Distillation,简称ADD)新技术,使得模型能够在保持高采样保真度的同时实现实时图像生成。
  5. SDXL Turbo

    • 特点:在SDXL 1.0的基础上进行迭代的版本,生成图像的效率非常高,几乎可以做到实时响应。同时,生成的图像质量也非常高,能够精准还原提示文本的描述。目前它只能生成固定像素的图片,对于一些细节可能表现的不够好,如人的手指、面部表情等,无法完美的展现照片级真实感。另外,目前SDXL Turbo只能用于学术研究,还未开放商业权限。

二、以SD基础模型进行训练和优化的其他模型

  1. majicMIX realistic

    • 特点:专门用于生成唯美的人像图片,目前已更新至第七版。融合了多种模型,能够生成具有吸引力的面部特征,并能有效地处理暗部细节。
  2. ChilloutMix

    • 特点:专为生成逼真的亚洲人物形象而设计,在生成高质量人物图像方面表现出色。
  3. AnythingElse V4

    • 特点:主要生成高质量的二次元和动漫图像,虽然风格相对较为单一,但在动漫领域表现出色。
  4. GuoFeng3

    • 特点:主要用于生成具有中国华丽古风风格的图像,在古风游戏角色和场景生成方面具有优势。
  5. RongHua

    • 特点:另一个国风系列模型,专注于生成具有中国特色的服装、道具和化妆元素,在国风创作领域具有较高的评价。
  6. Dreamlike-photoreal-2.0

    • 特点:用于生成逼真的场景和物品,在生成高质量的现实世界图像方面具有优势。
  7. Counterfeit

    • 特点:包括2.0、2.5、3.0版本,是安全可靠的模型。可生成逼真动漫风格的图像,适合动漫创作、游戏设计、动漫表情包制作等。
  8. Lyriel

    • 特点:包括v1.6~v1.0版本,是少数的全能大模型。用于肖像和全身动漫风格的照片,在创造奇幻景观方面和无敌光源也表现得非常不错。
  9. DreamShaper

    • 特点:同样是全能大模型,可以生成人物和场景风景,还有2.5D等。
  10. Protogen

    • 特点:包括v2.2和x3.4版本,v2.2偏向数字绘画,x3.4更偏向真人。可以通过提示词精确控制相机位置和人物动作。
  11. Dreamlike

    • 特点:以绚烂的色彩和风格而闻名,1.0偏向插画风格,2.0偏向真实照片,质感非常给力。

三、其他相关模型

  1. Checkpoint模型

    • 特点:通过Dreambooth训练方式得到的大模型,出图效果好,但训练速度普遍较慢,生成模型文件较大。
  2. LoRA模型

    • 特点:一种轻量化的模型微调训练方法,在原有大模型的基础上进行微调,用于输出固定特征的人或事物。出图效果好,训练速度快,模型文件小。
  3. Textual Inversion模型

    • 特点:使用文本提示来训练模型的方法,可以简单理解为一组打包的提示词,用于生成固定特征的人或事物。模型文件非常小,但训练速度较慢。
  4. Hypernetwork模型

    • 特点:与LoRA类似,但模型效果不如LoRA。
  5. VAE模型

    • 特点:作用是提升图像色彩效果,让画面看上去不会那么灰蒙蒙,此外还能对图像细节进行细微调整。

综上所述,SD的常用大模型种类繁多,各有特点。用户可以根据具体需求选择合适的模型进行图像生成或相关任务的处理。

相关推荐
malog_2 分钟前
PyTorch图像数据加载实战指南
图像处理·人工智能·pytorch·python
Yunzenn7 分钟前
深度分析字节最新研究cola-DLM第 01 章:语言生成的三次范式之争 —— 从 RNN 到 AR 到扩散
linux·人工智能·rnn·深度学习·机器学习·架构·transformer
m0_634666737 分钟前
Stability Audio 3.0 把 AI 音乐推过了一个门槛:从“音频片段”走向“完整歌曲”
人工智能·音视频
名不经传的养虾人8 分钟前
从0到1:企业级AI项目迭代日记 Vol.30|看不见的地基:从“能用”到“可信”的30天
人工智能·ai编程·企业ai
晚烛9 分钟前
CANN 数据流与内存优化:L1/L2 缓存机制与计算重叠深度解析
人工智能·python·缓存
薛定猫AI10 分钟前
【深度解析】从 Antigravity 2.0 看 AI Agent 的产品化演进:动态子代理、项目工作区与多模型编排实战
人工智能
2的n次方_10 分钟前
健身 Agent:不止视频,更有 AI 人物实时跟练交互
人工智能·音视频·交互·魔珐星云
前端不太难10 分钟前
CPU+GPU:开启AI推理新时代
人工智能·状态模式
chian-ocean11 分钟前
创业者实操:10 分钟搭建可商业化的交互型 AI 家电导购产品
人工智能
海上彼尚11 分钟前
Nodejs也能写Agent - 6.基础篇 - Agent
前端·人工智能·后端·node.js