Guardrails（大模型护栏 / 防护栏）

Esaka_Forever2026-06-08 11:03

Guardrails（大模型护栏 / 防护栏） ，简单说就是：给 LLM/AI Agent 加一层 "安全 + 格式 + 合规" 的防护网，防止输出乱、有毒、幻觉、泄露隐私。

下面用大白话讲清楚：

一、它是什么？

字面：护栏、防护栏
AI 语境 ：部署在 LLM 前后的校验 + 过滤层
核心定位 ：安全门 + 格式锁 + 合规闸

类比

没有 Guardrails：LLM 像脱缰野马，乱说、瞎编、漏隐私
有 Guardrails：给马路加护栏 ------不拦正常行驶，只防跑偏、坠崖、撞墙

二、解决什么问题？

防敏感泄露：拦截手机号、身份证、地址等 PII
防有害内容：暴力、色情、歧视、脏话、教唆犯罪
防格式混乱：强制输出 JSON/XML/ 固定字段，不乱写
防幻觉瞎编：强制回答忠于上下文 / 事实，不能胡扯
防 Prompt 注入：拦截 "忽略之前指令""扮演某某" 等越狱攻击
合规审计：所有出入内容留日志，满足监管要求

三、怎么工作？（两个阶段）

1）输入防护（before 模型）

关键词 / 正则过滤：拦截敏感词、注入指令
轻量安全模型：判断输入是否恶意
脱敏：自动把手机号、身份证打码

2）输出防护（after 模型）

2）LangChain Guardrails

3）简单自建

五、和 LangSmith 的区别（你之前问过）

六、一句话总结

Guardrails = LLM 的安全护栏 + 格式约束器 + 合规过滤器 ， 不限制能力，只防止闯祸，企业级 AI 应用必备。

格式校验：必须是合法 JSON、字段齐全、类型正确
内容审核：是否有毒、是否幻觉、是否偏离主题
事实核查：和知识库 / RAG 文档比对，防止瞎编
二次修正：不合格就重写、截断或拒绝回答

四、主流实现

1）NeMo Guardrails（最有名）

NVIDIA 开源，支持 Colang 语言写规则
可定义：能说什么、不能说什么、怎么说
支持热更新、多轮对话、复杂流程
LangChain 内置，中间件形式
开箱即用：PII 检测、内容过滤、输出校验
可自定义规则或接入外部安全模型
正则 + 关键词 + 小模型（如 LlamaGuard）
适合快速验证、轻量场景
LangSmith ：看过程、debug、追踪、评测（监控 + 日志）
Guardrails ：控内容、保安全、强格式、防越狱（防护 + 校验）
最佳组合：LangSmith 看 trace → Guardrails 做防护 → LangSmith 记录防护结果

上一篇：小圆点踢足球

下一篇：算法题目---BFS解决FloodFill算法问题

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10CC-Switch & Claude 基于 Linux 服务器安装使用指南