文生图王者登场:Stable Diffusion 3 Medium正式开源

今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。

6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。它具有一些显著的优点:

  • 照片写实主义:克服手部和面部常见的瑕疵,无需复杂的工作流即可提供高质量的图像。

  • 提示遵循:理解涉及空间关系、构图元素、动作和风格的复杂提示。

  • 排版:在Diffusion Transformer架构的帮助下,在生成没有伪影和拼写错误的文本方面取得了前所未有的效果。

  • 资源高效利用:由于占用较低的VRAM空间,非常适合在标准消费者GPU上运行且不会降低性能。

  • 微调:能够从小数据集中吸收细微的细节,非常适合定制化。

现在,硅基流动团队在云服务平台SiliconCloud上线了SD 3 Medium开源模型。

欢迎来玩儿:

**cloud.siliconflow.cn/models/imag...](p6-juejin.byteimg.com/tos-cn-i-k3...)

**注意!!!**除了最新的Qwen2、DeepSeek V2等语言模型,SD 3 Medium 已进入"6.18购物狂欢节"福利包:"新用户送3亿token(相当于1500张图片)"。

**www.siliconflow.cn/zh-cn/silic...](p9-juejin.byteimg.com/tos-cn-i-k3...)

SD3 Medium 模型效果及表现

(提示词:Masterpiece, best quality, girl, having a tattoo that says "Welcome to SiliconFlow". collarbone, wavy hair, looking at viewer, blurry foreground, upper body, necklace, contemporary, plain pants, intricate, print, pattern, ponytail, red hair, dappled sunlight, smile, happy.)

(提示词:a small, plush cat figurine with orange stripes and large black eyes holds a billboard calld" SiliconCloud" amidst a dreamy landscape of blue felt waves, pink felt hearts, and soft, hazy clouds glowing with a golden sunset, creating a whimsical, serene scene.)

(提示词:Cartoon hand, little girl, long colored hair, holographic coat, white shorts, fair skin, blue eyes, white sneakers, full-body photo, full body, panorama, best quality, best picture quality, black highly reflective background cloth, movie-level lighting effect)

(提示词: a photo-realistic landscape image that portrays a stunning summer scene with an 8K-like quality. The setting is a picturesque beach with golden sand, crystal-clear turquoise waters, and a clear blue sky. The sunlight should be warm and vibrant, casting a beautiful glow over the scene. There should be palm trees swaying gently in the breeze along the coastline.)

(提示词:an ornate, Victorian-era key lying on a weathered, wooden surface, with intricate, steampunk-inspired gears and mechanisms visible within its transparent, glass shaft.)

SD 3 Medium是一个MMDiT的文生图模型,使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)

据Stability AI 此前介绍,他们SD 3的输出图像与其他各种开源模型(包括SDXL、SDXL Turbo、Stable Cascade、 Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL·E 3、Midjourney v6 和 Ideogram v1)进行了比较,并根据人工反馈评估效果。

在这些测试中,向人工评估者提供了每个模型的示例输出,并要求他们根据模型输出与所给提示的上下文的接近程度("提示遵循")、根据提示呈现的文本效果("排版")以及哪幅图像的美学质量更高("视觉美学")来选择最佳结果。

以SD3为基准,该图表基于人类对视觉美学、提示遵循和排版的评估,概述了它胜过竞对模型的领域。

根据测试结果,SD 3在上述所有领域都等同于或优于当前最先进的文生图系统。

在早期未优化的消费级硬件推理测试中,他们最大的SD3模型(8B)可用RTX 4090的24GB VRAM,使用50个采样步骤时需要 34 秒才能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3的多个变体模型进一步消除了硬件使用的障碍。

关于SiliconCloud

SiliconCloud是集合主流开源大模型的一站式云服务平台,为开发者提供更快、更便宜、更全面的模型API。

目前,SiliconCloud已上架包括Stable Diffusion 3 Medium、Qwen2、GLM-4-9B-Chat、DeepSeek V2、SDXL、InstantID在内的多种开源大语言模型、图片生成模型,支持用户自由切换符合不同应用场景的模型。同时,SiliconCloud提供开箱即用的大模型推理加速服务,为生成式AI应用带来更高效的用户体验。

真正在乎大模型推理性能和成本的开发者,绝不会错过SiliconCloud。更何况,现在还送3亿token。

快试试吧:

www.siliconflow.cn/zh-cn/silic...

相关推荐
超龄超能程序猿43 分钟前
(三)PS识别:基于噪声分析PS识别的技术实现
图像处理·人工智能·计算机视觉
要努力啊啊啊1 小时前
YOLOv3-SPP Auto-Anchor 聚类调试指南!
人工智能·深度学习·yolo·目标检测·目标跟踪·数据挖掘
好开心啊没烦恼1 小时前
Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy
生态遥感监测笔记1 小时前
GEE利用已有土地利用数据选取样本点并进行分类
人工智能·算法·机器学习·分类·数据挖掘
天天扭码1 小时前
从图片到语音:我是如何用两大模型API打造沉浸式英语学习工具的
前端·人工智能·github
张彦峰ZYF2 小时前
从检索到生成:RAG 如何重构大模型的知识边界?
人工智能·ai·aigc
刘海东刘海东2 小时前
结构型智能科技的关键可行性——信息型智能向结构型智能的转变(修改提纲)
人工智能·算法·机器学习
**梯度已爆炸**2 小时前
NLP文本预处理
人工智能·深度学习·nlp
uncle_ll2 小时前
李宏毅NLP-8-语音模型
人工智能·自然语言处理·语音识别·语音模型·lm
Liudef062 小时前
FLUX.1-Kontext 高效训练 LoRA:释放大语言模型定制化潜能的完整指南
人工智能·语言模型·自然语言处理·ai作画·aigc