Stable Diffusion 3正式发布，旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

Stability AI最近宣布推出Stable Diffusion 3（简称SD3），这是该公司最新、最强大的图像生成AI模型。虽然具体细节还未充分披露，但显然这是为了抵御OpenAI和Google最近宣布的竞争对手所带来的热潮的尝试。

虽然我们很快就会提供更技术性的分析，但目前你需要知道的是，SD3基于一种新的架构，能够在各种硬件上运行（尽管仍然需要较强的硬件支持）。SD3目前还未发布，但你可以在这里登记等待名单。

SD3采用了更新版的"扩散变换器"，这是一种在2022年首创但在2023年进行了修订并现在达到可扩展性的技术。OpenAI引人注目的视频生成器Sora似乎也是基于类似原理工作的（论文的共同作者Will Peebles后来共同领导了Sora项目）。SD3还采用了"流匹配"，这是另一种新技术，同样在不增加太多开销的情况下提高了质量。

模型套件的范围从8亿参数（低于常用的SD 1.5）到80亿参数（超过SD XL），旨在运行在各种硬件上。你可能仍然需要一块强大的GPU和一个用于机器学习工作的设置，但你不像通常使用OpenAI和Google模型那样限于API。（就其本身而言，Anthropic并没有公开专注于图像或视频生成，因此它实际上不是这次讨论的一部分。）

在X（前身为Twitter）上，Stable Diffusion的负责人Emad Mostaque指出，新模型能够进行多模态理解，以及视频输入和生成，这些都是他的竞争对手在他们的API驱动的竞争者中强调的功能。这些能力仍然是理论上的，但听起来似乎没有技术障碍阻止它们被包含在未来的发布中。

当然，比较这些模型是不可能的，因为它们都还没有真正发布，我们所依赖的只是竞争性的声明和精心挑选的示例。但Stable Diffusion有一个明确的优势：它作为进行任何类型的图像生成的首选模型在时代潮流中的存在，方法或内容上几乎没有内在的限制。（的确，一旦越过了安全机制，SD3几乎肯定会开启AI生成色情内容的新时代。）

Stable Diffusion似乎想成为你不可或缺的白牌生成AI，而不是你不确定是否需要的精品生成AI。为此，该公司也在升级其工具，以降低使用门槛，尽管与公告的其余部分一样，这些改进留给了想象。

有趣的是，该公司在公告中将安全放在了首位，声明：

我们已经采取并继续采取合理步骤，防止恶意行为者滥用Stable Diffusion 3。安全从我们开始训练模型时就启动，并在测试、评估和部署过程中持续进行。为了这次早期预览，我们引入了许多安全措施。通过持续与研究人员、专家和我们的社区合作，我们期望在模型公开发布时以诚信进一步创新。

这些安全措施到底是什么？毫无疑问，预览将在一定程度上阐明它们，然后公开发布会进一步完善，或根据你对这些事情的看法而被审查。我们很快会知道更多，并且与此同时，我们将深入技术细节，以更好地理解这一新一代模型背后的理论和方法。