开源视频生成新突破：Sulphur 2 让“无审查“AI视频走向大众

视频生成 AI 的发展速度快得让人目不暇接。当 Sora、Runway 和 Pika 还在为谁能生成更流畅的镜头而较劲时，开源社区已经悄然开辟了一条完全不同的赛道。最近，一个名为 Sulphur 2 的开源视频生成模型在 Reddit 和 Hugging Face 上引发了大量关注，它的特殊之处不在于参数规模或生成时长，而在于一个更本质的问题：谁来决定 AI 可以生成什么内容？

从 LTX 2.3 到 Sulphur 2：一次针对性的进化

Sulphur 2 并非从零开始训练的全新模型，而是基于 Lightricks 公司开源的 LTX 2.3 进行深度微调的版本。LTX 2.3 本身已经是一个相当强大的视频生成模型，拥有 220 亿参数，支持文本生成视频（T2V）和图片生成视频（I2V）两种模式，能够处理可变帧率、音频同步、首尾帧控制等复杂功能。但和所有主流商业模型一样，LTX 2.3 内置了严格的内容审查机制，对某些类型的提示词会直接拒绝生成或输出降级内容。

Sulphur 2 的开发团队 SulphurAI 用了一种更直接的方式来解决这个问题：他们用超过 12.5 万个视频样本对 LTX 2.3 进行了完整的微调训练，移除了模型中的内容限制层，只保留了对非法内容的基本过滤。这意味着，Sulphur 2 可以响应几乎所有合法范围内的提示词，不会因为某些敏感但合法的主题而拒绝生成。citationcitation

这种"无审查"定位听起来充满争议，但实际上它触及了 AI 生成内容领域一个长期存在的矛盾：当 AI 工具越来越强大时，创作自由和内容管控之间的边界应该如何划定？ 商业公司出于法律和品牌风险考虑，往往会采取"宁可错杀"的策略，这导致大量正常的艺术创作、医学教育、历史研究等场景也会被误伤。而开源模型的出现，让用户可以在本地环境中自行决定这条边界，承担相应的责任。

技术细节：不只是删掉审查层那么简单

从技术实现角度看，Sulphur 2 的训练成本并不低。开发者在 Reddit 上透露，仅 GPU 租用成本就达到了 8000 美元，这还不包括数据采集、清洗和标注的人力投入。整个微调过程使用了超过 12.5 万个视频样本，涵盖了 LTX 2.3 原本不愿意生成的各种主题和风格。

模型本身继承了 LTX 2.3 的完整功能集：支持文本生成视频和图片生成视频两种模式，可以处理可变帧率（从低帧率草图到高帧率流畅动画），支持音频同步生成，可以指定视频的首帧或尾帧来控制生成方向，还能进行视频延长和风格转换。这些功能的保留意味着，Sulphur 2 不是简单地"解锁"了 LTX 2.3，而是在保持原有能力的基础上拓展了应用边界。

为了降低使用门槛，Sulphur 2 提供了多个版本：BF16 全精度版本适合高端硬件 ，FP8 混合精度版本可以在消费级显卡上运行，还有专门优化的 Distill LoRA 版本，可以用更少的显存实现类似效果。开发者特别强调，使用时不要同时加载完整模型和 LoRA，选择其中一种即可。citation

值得一提的是，Sulphur 2 还配备了一个提示词增强器（Prompt Enhancer），这是一个独立的小模型，可以将用户输入的简短描述扩展为更详细、更适合视频生成的提示词。这个增强器支持文本和图片输入，可以在 LM Studio 等工具中本地运行，进一步提升了生成质量和用户体验。

社区反响：争议与赞誉并存

Sulphur 2 发布后，Reddit 上的 StableDiffusion 社区迅速掀起了讨论热潮。一篇介绍帖获得了近 800 个赞和 150 多条评论，用户们的反应可以说是两极分化。

支持者认为，Sulphur 2 代表了开源 AI 应该有的样子------不预设立场，不替用户做道德判断，只提供工具本身。一位用户评论说："LTX 2.3 可能有一些技术短板，但它的功能非常丰富，而 Sulphur 2 继承了这些优点，让你可以用一些技巧做出很多有趣的东西。" 另一位用户则表示，他已经将客户的项目资产迁移到了 Sulphur 2，因为"它在实际使用中表现得更稳定，更尊重提示词"。

质疑者则担心这类模型会被滥用。有人指出，虽然 Sulphur 2 声称过滤了非法内容，但"无审查"的定位本身就容易吸引不良用户。也有技术派用户认为，Sulphur 2 的生成质量并没有显著超越 LTX 2.3 加上一些优质 LoRA 的组合，"这不过是一个营销噱头"。

更有趣的是，社区中还出现了基于 Sulphur 2 的二次微调版本。一个名为 10Eros 的模型专门针对图片生成视频（I2V）场景进行了优化，据称在保持 Sulphur 2 开放性的同时，进一步提升了对提示词的响应准确度和视觉连贯性。这种"开源模型催生更多开源模型"的现象，正是开源生态最有活力的地方。citationcitation

实际表现：优势与局限并存

从用户反馈来看，Sulphur 2 在某些方面确实表现出色，但也并非完美无缺。

优势方面，最明显的是对提示词的响应更加直接和准确。由于移除了审查层，模型不会因为某些关键词而"自我审查"或偏离用户意图，这在需要精确控制生成内容的场景中非常有价值。多位用户表示，在并排对比测试中，Sulphur 2 的 BF16 版本在视觉质量和动作连贯性上略胜 LTX 2.3 原版。

局限方面，一些用户指出 Sulphur 2 在生成人体动作时仍然存在不自然的问题，比如肢体扭曲、动作僵硬等，这是当前几乎所有视频生成模型的通病。还有人提到，模型对提示词的理解有时会过于字面化，缺乏对复杂场景的整体把握，导致生成结果虽然符合描述但缺乏美感。

另一个值得注意的问题是硬件要求。虽然 FP8 版本降低了显存需求，但要获得最佳效果，仍然需要至少 16GB 显存的显卡。对于大多数普通用户来说，这意味着需要租用云端 GPU 或者投资高端硬件，这在一定程度上限制了模型的普及。

开源视频生成的未来：多元化还是失控？

Sulphur 2 的出现，让我们不得不重新思考开源 AI 的边界问题。在图像生成领域，Stable Diffusion 已经证明了开源模型可以在保持开放性的同时，通过社区自治和工具生态来平衡创作自由与内容安全。视频生成会走上同样的道路吗？

从技术发展趋势看，视频生成模型的开源化是不可逆转的。LTX 2.3、CogVideoX、Wan2.2 等模型的陆续开源，已经让本地视频生成从"实验室玩具"变成了"可用工具"。而像 Sulphur 2 这样的微调版本，则进一步降低了特定场景应用的门槛。

但与此同时，视频内容的影响力远大于静态图片，这也意味着潜在的滥用风险更高。如何在保持开源精神的同时，建立有效的社区规范和技术防护机制，将是整个生态必须面对的挑战。Sulphur 2 的开发者选择了"只过滤非法内容"的底线策略，这是一种务实的折中方案，但能否经受住时间和实践的检验，还需要观察。

对于内容创作者来说，Sulphur 2 提供了一个新的选择：如果你的创作主题在商业平台上频繁遭遇审查，但内容本身完全合法，那么本地部署的开源模型可能是更好的解决方案。无论是艺术实验、教育内容还是小众题材创作，拥有一个不会"自我审查"的工具，意味着更大的创作自由度。

如何开始使用 Sulphur 2

对于想要尝试 Sulphur 2 的用户，开发者建议从 FP8 混合精度版本或 BF16 版本开始，同时下载配套的 Distill LoRA。模型文件可以在 Hugging Face 上直接下载，配合 ComfyUI 等工具即可开始生成。

如果想使用提示词增强器，可以通过 LM Studio 加载。具体方法是在 LM Studio 的模型文件夹中创建"Sulphur/promptenhancer"目录，将 GGUF 文件和 MMProj 文件放入其中，然后就可以在 LM Studio 中加载并使用。提示词增强器不需要系统提示词，直接输入想要扩展的文本或图片即可。

需要注意的是，Sulphur 2 目前仍在快速迭代中，开发者表示后续会提供更详细的使用文档和训练指南，帮助用户在此基础上进行二次开发。社区中也有大量用户分享了工作流配置和使用技巧，遇到问题可以在 Discord 频道或 Reddit 社区寻求帮助。

Sulphur 2 的出现，不仅是一个技术产品的发布，更是开源 AI 社区对"谁来定义 AI 边界"这一根本问题的一次回应。在商业模型越来越保守、审查越来越严格的今天，开源社区用实际行动证明：技术本身应该保持中立，而如何使用技术的选择权，应该留给用户自己。

社区地址

OpenCSG社区：https://opencsg.com/models/AIWizards/Sulphur-2-base

hf社区：https://huggingface.co/SulphurAI/Sulphur-2-base

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论， 由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。