Stable Diffusion 3 发布 吹爆 | 更好的细节、多元素控图、生成文字

赶了个晚集~

前天,Stability AI 在一夜之间更新了两项重大举措

一个是发布了新一代的 Stable Diffusion 3 (SD3),一种文本到图像的模型。目前来看应该是最强大的文生图模型

另外一个则是 视频生成平台 Stable Video Diffusion(SVD)也正式开启了公测。它很可能是Sora 未来的强大竞争对手,目前和 Sora 比还是个弟弟

今个我们主要讲讲 SD3 的更新到底牛逼在哪

Stability AI 公布了 Stable Diffusion 3 (SD3) 的早期预览版,这是其下一代文本到图像模型。

SD3采用了类似于Sora的DiT(Diffusion Transformer)架构,提供了更强大的图像生成能力。它充分利用了Transformer技术的最新进展,能够处理更复杂和多样化的数据类型,并接受多模态输入(视频、图像),从而在理解和生成图像内容方面提供更大的灵活性和准确性。此外,SD3还结合了流匹配技术和其他增强功能,以进一步提高生成图像的质量和多样性,使得生成的图像更连贯、更自然。SD3 的模型参数从 800M 到 8B 不等。

目前还是在预览版,不过官方提供了白名单体验入口 stability.ai/stablediffu... 可以申请一波~

接着,直观的来看看到底更新了啥功能~

Multi-Prompt Handling 多提示的理解和处理

SD3 对包含多个主题或元素的提示具有更好的理解和处理能力。

这意味着用户可以在单个提示中描述更复杂的场景,并且模型可以根据这些描述更准确地生成图像。

vbnet 复制代码
Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion". 

提示词:一幅宇航员骑着一头穿着芭蕾舞短裙的猪,手里拿着一把粉红色的雨伞,猪旁边的地上是一只戴着礼帽的知更鸟,角落里是"稳定扩散"的字样。
sql 复制代码
prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.  

提示词:木桌上放着三个透明玻璃瓶。左边的那个是红色液体,数字是 1。中间的那个是蓝色液体,数字是 2。右边的那个是绿色液体,数字是 3。
vbnet 复制代码
prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.

提示词:一匹马在田野上平衡一个五颜六色的球,背景是绿草和山脉。

Spelling and Text Processing 拼写&文本处理

SD3在处理文本元素时具有更好的拼写和文本理解能力,尤其是直接显示在图像中的文本信息(如标语、数字、标签等)。

这包括更准确地识别和呈现用户提示中的文本,即使在复杂的视觉背景中也是如此。不过比较遗憾的是目前中文的支持并不好

csharp 复制代码
prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.  

提示词:史诗般的动漫艺术作品,一个巫师在晚上在山顶上向黑暗的天空施放一个宇宙咒语,上面写着"Stable Diffusion 3",由五颜六色的能量制成。
arduino 复制代码
prompt:  a grandma wearing a "Go big or go home sweatshirt"
提示词:奶奶穿着"Go big or go home sweatshirt"的图像
vbnet 复制代码
prompt: Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.  

提示词: 厨房桌子上放着一块绣花布,上面写着"晚安"和一只绣有小老虎。在布的旁边有一根点燃的蜡烛。灯光昏暗而引人注目。
csharp 复制代码
prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.  
提示词:史诗般的动漫艺术作品,一个巫师在晚上在山顶上向黑暗的天空施放一个宇宙咒语,上面写着"Stable Diffusion 3",由五颜六色的能量制成。

Image Accuracy and Quality 图像精度和质量

SD3 显着提高了图像质量,包括更精细的细节表示、更准确的色彩匹配以及更自然的光影处理。这些改进使生成的图像更加逼真,并更好地捕捉用户的创作意图。

arduino 复制代码
Prompt: studio photograph closeup of a chameleon over a black background  
提示词:黑色背景上变色龙的工作室照片特写
makefile 复制代码
prompt: Moody still life of assorted pumpkins.  
提示词:什锦南瓜的喜怒无常的静物。

说实话,目前官方给出的样图的功能效果非常惊艳。

以后是不是就可以不用 ControlNet 来控制图片的位置姿态了。。

广告海报生成是不是也轻轻松松了...

更强的是,SD3 竟然可以理解自然语言的了,可以理解句子了,可以更好的控制图片的生成!

期待 SD3 的正式发布!!!

本文使用 mdnice 排版

相关推荐
扫地的小何尚6 小时前
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
程序员X小鹿14 小时前
免费,手机可用!一款AI数字人生成工具,200+数字人形象任选,3分钟定制专属数字人!(附教程)
aigc
狼爷20 小时前
Reddit 舞台上的 AI:解码用户生活密码,隐私警钟敲响
安全·aigc
AI极客菌1 天前
[ComfyUI]Flux:繁荣生态魔盒已开启,6款LORA已来,更有MJ6&写实&动漫&风景&艺术&迪士尼全套
ai作画·stable diffusion·aigc·midjourney·人工智能作画·comfyui·风景
袁庭新1 天前
安装luasocket模块时提示“sudo: luarocks:找不到命令“问题,该如何解决?
java·人工智能·ai·aigc·lua·luarocks·袁庭新
阿牛牛阿1 天前
多模态大模型(1)--CLIP
算法·机器学习·ai·aigc
想成为高手4991 天前
成功男人背后的女人--解析AIGC幕后的算法原理
算法·aigc
量子位2 天前
百度打通两大国民产品!六边形 AI 创作新物种「自由画布」来了
人工智能·aigc
全域观察2 天前
出海攻略,如何一键保存Facebook视频素材
人工智能·新媒体运营·aigc·内容运营·程序员创富
是店小二呀2 天前
丹摩征文活动|Llama 3.1 开源模型快速部署:从零到上线
aigc·丹摩智算