Stable Diffusion 3 API 发布！超越Midjourney v6和DALL-E 3

Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天，StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型，并没有说明发布日期。模型还没发布，但API先来了！

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型，尤其是在字体和提示遵循方面。

GPT-3.5研究测试： https://hujiaoai.cn

GPT-4研究测试： https://higpt4.cn

Claude-3研究测试（全面吊打GPT-4）： https://hiclaude3.com

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口，来快速开发有趣的应用程序了！

与网友们的预期不同的是，这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择，难道这是另一个大招吗？

虽然模型还未开源，但StabilityAI 承诺:

我们致力于开放生成式人工智能，计划在不久的将来对 Stability AI 会员资格开放模型权重，实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻：😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着"全城最佳景观"。（A red sofa on top of a white building. Graffiti with the text "the best view in the city".）

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。（Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.）

▲图3.

提示: 唯美的粉彩魔幻现实主义，一个男人以复古电视为头，站在沙漠中央，复古的照片。（Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.）

▲图4.

提示: 一个纸板箱，上面写着"他们说在这里不适合思考"，这个纸板箱很大，放在剧院的舞台上。（A cardboard box with the phrase "they say it's not good to think in here", the cardboard box is large and sits on a theater stage.）

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示，他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作，提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI，StabilityAI 将可以提供企业级 API 解决方案，确保 99.9% 的服务可用性。

不过，官网提供的 Pricing 显示，SD3 是比 SD3 Turbo 更好的模型，价格差不多比后者高了 40%！按道理说，Turbo 不是应该更贵吗？🤔

目前的每 1000 credits 的价格是 10 美元，大概可以用来购买 5000 张 SDXL 1.0 的图片，而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

▲图1.

Stable Diffusion 3 有多强？

在 2 月份发布的论文中，我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型，包括其他开源模型（包括 SDXL，SDXL Turbo，Stable Cascade，Playground v2.5 和 Pixart-α）以及闭源模型（如 DALL・E 3，Midjourney v6 和 Ideogram v1）。

▲图6.

对比上代模型，SD3 采用了与Sora类似的 Diffusion Transformer 技术，并结合了流匹配（Flow Matching）等多项技术改进，不仅使得系统扩展性更强，还能处理多种类型的输入数据。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer（MMDiT）架构使用独立的权重集合来表示图像和语言，这与以前版本的 Stable Diffusion 相比，提高了文本理解和拼写能力。

在 MMDiT 架构中，文本和图像的表示分别通过预训练模型进行编码。

具体地说，MMDiT 采用了三种不同的文本嵌入器（两个 CLIP 模型和 T5 模型），以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式，为强大的 SD3 模型提供了基础。

网友们怎么看？

StabilityAI 创始人兼 CEO，Emad Mostaque 曾表示，与视频、语言、代码、3D、音频等一样，Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了？

不过，底下的网友们也对开源和闭源有着更宽容的理解，也希望公司能够在开源和赚钱之前找到一个平衡点，不要彻底成为下一个 ClosedAI（手动狗头）。

最后，送给各位潜在的艺术家hh：

参考资料

$1$ https://stability.ai/news/stable-diffusion-3

$2$ https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/

$3$ https://twitter.com/StabilityAI/status/1780599024707596508

$4$ https://stability.ai/news/stable-diffusion-3-research-paper

$5$ https://stability.ai/news/stable-diffusion-3-api