Stable Diffusion 3正式发布,旨在巩固其在AI图像领域相对于Sora和Gemini的领先地位

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Stability AI最近宣布推出Stable Diffusion 3(简称SD3),这是该公司最新、最强大的图像生成AI模型。虽然具体细节还未充分披露,但显然这是为了抵御OpenAI和Google最近宣布的竞争对手所带来的热潮的尝试。

虽然我们很快就会提供更技术性的分析,但目前你需要知道的是,SD3基于一种新的架构,能够在各种硬件上运行(尽管仍然需要较强的硬件支持)。SD3目前还未发布,但你可以在这里登记等待名单。

SD3采用了更新版的"扩散变换器",这是一种在2022年首创但在2023年进行了修订并现在达到可扩展性的技术。OpenAI引人注目的视频生成器Sora似乎也是基于类似原理工作的(论文的共同作者Will Peebles后来共同领导了Sora项目)。SD3还采用了"流匹配",这是另一种新技术,同样在不增加太多开销的情况下提高了质量。

模型套件的范围从8亿参数(低于常用的SD 1.5)到80亿参数(超过SD XL),旨在运行在各种硬件上。你可能仍然需要一块强大的GPU和一个用于机器学习工作的设置,但你不像通常使用OpenAI和Google模型那样限于API。(就其本身而言,Anthropic并没有公开专注于图像或视频生成,因此它实际上不是这次讨论的一部分。)

在X(前身为Twitter)上,Stable Diffusion的负责人Emad Mostaque指出,新模型能够进行多模态理解,以及视频输入和生成,这些都是他的竞争对手在他们的API驱动的竞争者中强调的功能。这些能力仍然是理论上的,但听起来似乎没有技术障碍阻止它们被包含在未来的发布中。

当然,比较这些模型是不可能的,因为它们都还没有真正发布,我们所依赖的只是竞争性的声明和精心挑选的示例。但Stable Diffusion有一个明确的优势:它作为进行任何类型的图像生成的首选模型在时代潮流中的存在,方法或内容上几乎没有内在的限制。(的确,一旦越过了安全机制,SD3几乎肯定会开启AI生成色情内容的新时代。)

Stable Diffusion似乎想成为你不可或缺的白牌生成AI,而不是你不确定是否需要的精品生成AI。为此,该公司也在升级其工具,以降低使用门槛,尽管与公告的其余部分一样,这些改进留给了想象。

有趣的是,该公司在公告中将安全放在了首位,声明:

我们已经采取并继续采取合理步骤,防止恶意行为者滥用Stable Diffusion 3。安全从我们开始训练模型时就启动,并在测试、评估和部署过程中持续进行。为了这次早期预览,我们引入了许多安全措施。通过持续与研究人员、专家和我们的社区合作,我们期望在模型公开发布时以诚信进一步创新。

这些安全措施到底是什么?毫无疑问,预览将在一定程度上阐明它们,然后公开发布会进一步完善,或根据你对这些事情的看法而被审查。我们很快会知道更多,并且与此同时,我们将深入技术细节,以更好地理解这一新一代模型背后的理论和方法。

相关推荐
风象南26 分钟前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮2 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬2 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia2 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源