Guardrails 实战：如何为 OpenClaw 构建 AI 行为护栏系统

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员

👋 大家好，我是展菲！

📱 全网搜索"展菲"，即可纵览我在各大平台的知识足迹。

📣 Swift社区，每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

💬 微信端添加好友"fzhanfei"，与我直接交流，不管是项目瓶颈的求助，还是行业趋势的探讨，随时畅所欲言。

📅 最新动态：2025 年 3 月 17 日

快来加入技术社区，一起挖掘技术的无限潜能，携手迈向数字化新征程！

文章目录

- 引言
- [一、Guardrails 到底是什么？](#一、Guardrails 到底是什么？)
- 二、整体架构设计
- - 核心思想
- [三、第一步：定义统一 Action 结构](#三、第一步：定义统一 Action 结构)
- - [标准 Action 定义](#标准 Action 定义)
  - 示例
- [四、第二步：设计规则引擎（Rule Engine）](#四、第二步：设计规则引擎（Rule Engine）)
- - 规则接口设计
  - 返回结果
  - 示例规则
- [五、第三步：规则链（Rule Chain）](#五、第三步：规则链（Rule Chain）)
- - 执行流程
  - 核心能力
- [六、第四步：接入 Action Gateway](#六、第四步：接入 Action Gateway)
- - [Gateway 示例](#Gateway 示例)
  - 核心原则
- [七、进阶一：规则 DSL（让规则可配置）](#七、进阶一：规则 DSL（让规则可配置）)
- - [简单 DSL 示例](#简单 DSL 示例)
  - 执行逻辑
  - 优势
- [八、进阶二：风险评分系统（Risk Score）](#八、进阶二：风险评分系统（Risk Score）)
- - 示例
  - 决策
  - 核心价值
- [九、进阶三：多 Agent 互相制衡](#九、进阶三：多 Agent 互相制衡)
- - 流程
  - 优势
- 十、进阶四：行为回放（Replay）
- - 示例日志
  - 回放能力
- [十一、在 OpenClaw 中的落地位置](#十一、在 OpenClaw 中的落地位置)
- - 插入点
  - 实际控制点
- 十二、最终效果
- 总结

引言

前面我们已经建立了一个共识：

AI 不能直接执行，必须被"约束后执行"。

但问题来了------

复制代码

约束写在哪里？
谁来执行约束？
规则如何扩展？

这就是今天这篇的核心：

如何在 OpenClaw 中，真正落地一个"可运行的 Guardrails 系统"？

一、Guardrails 到底是什么？

很多人把 Guardrails 理解成：

复制代码

if 判断 + 黑名单

但这远远不够，真正的 Guardrails 系统应该是：

复制代码

规则系统（Rule Engine）
+
执行拦截（Interceptor）
+
上下文感知（Context-aware）

一句话总结：

Guardrails = 可配置 + 可扩展 + 可运行的行为约束系统

二、整体架构设计

先给你一个可以落地的架构：

复制代码

AI Plan
   ↓
Guard Engine
   ↓
Rule Chain（规则链）
   ↓
Decision（Allow / Block / Modify）
   ↓
Action Gateway

核心思想

所有行为在执行前，必须经过"规则链审查"。

三、第一步：定义统一 Action 结构

如果没有统一结构，就无法做规则控制。

标准 Action 定义

ts 复制代码

type Action = {
  type: string;
  params: Record<string, any>;
  agent: string;
  context: Context;
};

示例

json 复制代码

{
  "type": "spawn_enemy",
  "params": { "count": 20 },
  "agent": "builder",
  "context": {
    "scene": "battle",
    "time": 123456
  }
}

四、第二步：设计规则引擎（Rule Engine）

核心来了------我们要设计一个"可插拔规则系统"。

规则接口设计

ts 复制代码

interface Rule {
  name: string;
  check(action: Action): RuleResult;
}

返回结果

ts 复制代码

type RuleResult = {
  decision: "allow" | "block" | "modify";
  reason?: string;
  newAction?: Action;
};

示例规则

1、限制生成数量

ts 复制代码

class LimitSpawnRule implements Rule {
  name = "limit_spawn";

  check(action: Action): RuleResult {
    if (action.type === "spawn_enemy") {
      if (action.params.count > 50) {
        return {
          decision: "block",
          reason: "Too many enemies"
        };
      }
    }
    return { decision: "allow" };
  }
}

2、上下文限制

ts 复制代码

class SceneRule implements Rule {
  check(action: Action): RuleResult {
    if (action.context.scene === "battle" &&
        action.type === "modify_map") {
      return {
        decision: "block",
        reason: "Cannot modify map during battle"
      };
    }
    return { decision: "allow" };
  }
}

五、第三步：规则链（Rule Chain）

单个规则不够，我们需要组合规则。

执行流程

ts 复制代码

function runRules(action: Action, rules: Rule[]) {
  let currentAction = action;

  for (const rule of rules) {
    const result = rule.check(currentAction);

    if (result.decision === "block") {
      return result;
    }

    if (result.decision === "modify") {
      currentAction = result.newAction!;
    }
  }

  return {
    decision: "allow",
    action: currentAction
  };
}

核心能力

复制代码

支持拦截（block）
支持修改（modify）
支持链式处理

六、第四步：接入 Action Gateway

Guardrails 不应该"单独存在"，必须接入执行链路。

Gateway 示例

ts 复制代码

function execute(action: Action) {
  const result = runRules(action, rules);

  if (result.decision === "block") {
    throw new Error(result.reason);
  }

  return safeExecute(result.action);
}

核心原则

所有执行必须经过 Guard Engine。

七、进阶一：规则 DSL（让规则可配置）

如果规则写死在代码里，会有两个问题：

复制代码

不灵活
不可运营

简单 DSL 示例

json 复制代码

{
  "rule": "limit_spawn",
  "condition": "action.type == 'spawn_enemy'",
  "constraint": "action.params.count <= 50"
}

执行逻辑

ts 复制代码

if (eval(condition) && !eval(constraint)) {
  return block();
}

优势

复制代码

动态配置
无需重新发布
可运营化管理

八、进阶二：风险评分系统（Risk Score）

不是所有行为都要"直接拒绝"。

示例

ts 复制代码

function riskScore(action: Action): number {
  let score = 0;

  if (action.type === "delete") score += 50;
  if (action.params.count > 100) score += 30;

  return score;
}

决策

ts 复制代码

if (score > 70) {
  requireHumanApproval();
}

核心价值

复制代码

更灵活
更智能
支持灰度策略

九、进阶三：多 Agent 互相制衡

你可以引入多个 Agent：

复制代码

执行 Agent（Executor）
审查 Agent（Critic）
仲裁 Agent（Judge）

流程

复制代码

AI 生成 Action
↓
Critic 审查
↓
Judge 决定
↓
执行

优势

用 AI 约束 AI

十、进阶四：行为回放（Replay）

Guardrails 不只是"拦截"，还要：

支持复盘

示例日志

json 复制代码

{
  "action": "spawn_enemy",
  "params": { "count": 100 },
  "decision": "blocked",
  "reason": "limit exceeded"
}

回放能力

复制代码

复现问题
分析规则是否合理
优化策略

十一、在 OpenClaw 中的落地位置

在 OpenClaw 中，你可以这样接入：

插入点

复制代码

AI → Plan → Guard → Gateway → Engine

实际控制点

复制代码

实体生成（Entity Spawn）
资源加载（Resource Load）
事件触发（Trigger）
地图修改（Map Update）

十二、最终效果

系统从：

复制代码

AI → 直接执行 错误

变成：

复制代码

AI → 规则审查 → 安全执行 正确

总结

Guardrails 的本质不是"限制 AI"，而是：

把 AI 的不确定性，转化为系统的确定性。

在 OpenClaw 这样的系统中，一个完整的 Guardrails 应该具备：

复制代码

统一 Action 模型
可扩展规则引擎
规则链执行机制
执行网关拦截
风险评分系统
可观测与回放能力

AI 可以"提出建议"，但系统必须"决定是否执行"。