OpenAI开源gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

gpt-oss-safeguard-120b和gpt-oss-safeguard-20b是基于gpt-oss构建的安全推理模型。通过这些模型，您可以根据提供的安全策略对文本内容进行分类，并执行一系列基础安全任务。这些模型专为安全用例设计。对于其他应用场景，我们推荐使用gpt-oss系列模型。

该型号gpt-oss-safeguard-120b可部署在单块H100 GPU上运行（1170亿参数总量，51亿活跃参数）。若需更低延迟版本，请选用gpt-oss-safeguard-20b（210亿参数总量，36亿活跃参数）。

所有模型均基于我们开发的harmony响应格式进行训练，必须严格遵循harmony格式使用，否则将无法正常工作。

产品亮点

安全推理专项训练：针对安全推理场景进行专项训练与优化，适用于大语言模型输入输出过滤、在线内容标注以及信任与安全场景的离线标注等用例。
自定义策略机制：可解析用户编写的安全策略，无需复杂工程适配即可跨产品和用例通用。
决策过程透明化：提供完整的模型推理过程（注：原始思维链功能面向开发者和安全专业人员设计，不建议向普通用户或在非安全场景使用），不仅输出判定结果，更展现决策依据，便于调试分析并增强对策略决策的信任度。
可调节推理强度：根据具体用例和延迟需求，灵活选择低/中/高三档推理强度。
Apache 2.0开源许可：允许自由构建且无著作权限制或专利风险，特别适合实验研究、定制开发和商业部署。

推理示例

gpt-oss-safeguard-120b与gpt-oss-safeguard-20b的使用方式与对应手册中描述的gpt-oss系列模型类似。我们同时提供了详细的提示词指南，说明如何编写安全策略并与模型配合使用。

模型下载

通过Hugging Face平台下载模型权重，操作流程与gpt-oss-120b下载指引类似。

加入ROOST模型社区

gpt-oss-safeguard是稳健开放在线安全工具(ROOST)模型社区的合作伙伴。该社区聚集了致力于运用开源AI模型保护网络空间的安全实践者。作为社区合作伙伴，OpenAI将持续整合用户反馈，与社区共同迭代未来版本以推进开放安全生态。访问RMC GitHub仓库了解合作详情及参与方式。

OpenAI开源gpt-oss-safeguard-120b和gpt-oss-safeguard-20b

产品亮点

推理示例

模型下载

加入ROOST模型社区

相关资源