Day 26｜智能体的“伦理与安全边界”

如何构建可控、不作恶、可审计的 AGI 时代代理人？

AI 智能体（Agent）不是一个"工具"，而是一个 会自己行动、自己决策、会持续运行的系统。随着记忆、工具库、工作流、可持续运行、数据访问等能力叠加，一个成熟的 Agent 已具备：

自主决策（Reasoning）
持续运行（Auto Loop）
工具调用（Action）
外部世界访问（Web / APIs）
跨平台控制（本地 / 云端 / 浏览器）
复杂行为链（Workflow）

而所有可自主行动的系统，都必然需要"安全边界"。

因为一次误调用，就可能是：

删除用户重要文件
无限循环发请求导致服务器崩溃
在用户不知情的情况下传播敏感信息
在社交媒体自动发帖
发起非许可的支付
抓取不允许被爬取的数据
对用户本人造成误导

这些问题不是"可能发生"，而是 一定会发生 ------如果不设计安全边界。

今天我们系统讲清楚：

01｜智能体为什么一定要有"安全边界"？

核心原因：Agent = "自运行 + 外部世界行动"。

一切风险都来自 Action：

风险类型	示例
操作风险（Operational）	删除文件、无限循环、写坏数据库、错误调用 API
隐私泄露（Privacy）	向第三方 API 发送敏感数据
合规风险（Compliance）	抓取受保护页面、发布违规内容
资源滥用（Resource Abuse）	重复请求导致成本暴涨
社会风险（Ethical）	带偏用户、生成危险建议
信任损坏（Trust）	未经允许代表用户执行行为（发邮件、发帖）

随着 Agent 越来越强，这些风险"指数化"上升，所以：构建 Agent = 先构建边界，再构建能力。

02｜智能体安全的三层模型

所有可靠的 AGI / Agent 系统（OpenAI、Anthropic、Google、微软）都遵循一个共识：

智能体安全 = 结构化的三层防护体系："能力边界 → 行为边界 → 责任边界"**

第一层｜能力边界（Capability Boundaries）

控制 Agent 能做"哪些事"。重点是限制"能力发散"，包括：

① 工具权限隔离

每个工具必须定义：

可执行动作
输入参数格式
输出结构
权限范围
错误处理
风险等级（低 / 中 / 高）

例子------危险工具必须明确声明：

复制代码

{
  "tool": "file_delete",
  "risk": "high",
  "require_explicit_approval": true
}

② 数据访问控制

避免 Agent 随意访问用户全部本地数据。

目录级别白名单
API key 隔离
数据脱敏
会话数据与长期数据区分
记忆系统添加"是否可永久存储"标记

③ 外部 API 行为限流

避免出现无限 request：

QPS 限制
Token 限制
调用次数限制
重试次数限制（最多 1-2 次）

④ 环境沙箱

本地运行智能体必须在沙箱内：

不能访问系统敏感路径
不能运行未允许的命令
不能执行脚本文件（除非白名单允许）

👉 能力边界 = agent 的"能力天花板"。

第二层｜行为边界（Behavioral Boundaries）

即使能力允许，也必须限制"行为方式"。

① 人类监督（Human-in-the-loop）

高风险行为必须实时确认：

发邮件
发布社交内容
付款操作
删除 / 覆盖文件
提交生产环境任务

通过：

二次确认提示
截图回显
行为说明
允许 / 拒绝按钮

② 透明行为（Explainability）

Agent 必须解释：

为什么要执行这个行为
会产生什么影响
有无风险
是否有备选方案

示例： "我将删除 /Users/dd/Desktop/tmp 目录中的所有 .tmp 文件，这些文件为缓存文件，不会影响正常使用。"

③ 行为审计（Audit Logging）

所有行为必须可追溯：

每次工具调用
输入 / 输出
结果
异常
人类确认记录

④ 风险级别自适应

行为越危险，Agent 需要越慎重：

延迟
多步推理
再检查
要求更明确的指令

👉 行为边界 = 行动方式的规则化。

第三层｜责任边界（Responsibility Boundaries）

核心：Agent 不对关键决策负责，人类才负责。

包括：

① 决策留白

Agent 永远不主动：

主动发消息
主动执行任务
主动调度工作
主动修改文件
主动访问敏感来源

除非：

有明确触发器
或用户明确授权

② 用户意图优先

当用户表达不确定时，Agent 必须停止行动：

"我试试看"
"好像可以"
"你帮我选一个吧"

都必须触发：

"该行为涉及风险，请确认是否继续？"

③ 成果责任归属

Agent 是"助手"，不是"责任承担者"。

包括：

内容仅为建议
决策需用户确认
不替代法律 / 医疗 / 财务判断

👉 责任边界 = 谁负责，谁决定。

03｜你的智能体应该具备的 12 条安全准则（可直接加入系统提示词）

下面是可直接用于任何 Agent 的 "安全边界协议（Policy 1.0）" ：

① 不主动发起高风险行为

（发帖、邮件、脚本、删除文件、支付）

② 高风险行为需再次确认

③ 所有外部数据需脱敏

④ 所有行动需可解释

⑤ 所有工具调用记录日志

⑥ 不做模糊指令（Ambiguous Instruction）

⑦ 不提供法律 / 医疗 / 财务决定

⑧ 不生成攻击性、违规内容

⑨ 不抓取未明确授权的网站

⑩ 不将敏感信息写入长期记忆

⑪ 不自我复制，不创建子 Agent

⑫ 用户 > Agent > 工具（严格优先级）

04｜智能体的安全架构

复制代码

            ┌───────────────────────────┐
            │     责任边界层（顶层）       │
            │   用户确认、意图校验、责任留白 │
            └───────────▲───────────────┘
                        │
            ┌───────────┴─────────────────┐
            │     行为边界层（中层）         │
            │   审计、解释、风控、限制行为方式 │
            └───────────▲─────────────────┘
                        │
            ┌───────────┴─────────────────┐
            │     能力边界层（底层）         │
            │   权限隔离、沙箱、限流、工具规范 │
            └─────────────────────────────┘

05｜可直接使用的"安全性系统提示词模板"

你可以将下面内容作为你的任何 Agent 的一部分：

🧩 Agent Safety System Prompt（可直接用）

复制代码

你是一个遵守严格安全边界的 AI 智能体，请遵守以下规则：
（1）权限限制
只调用获授权的工具
高危工具必须二次确认
避免无限循环、连续失败重试
（2）行为规范
所有工具调用前必须解释目的
返回执行后的结果与影响
所有调用记录日志（Audit）
（3）隐私与数据
不泄露、发送、持久化用户敏感信息
所有外部数据需脱敏处理
（4）责任归属
不替代用户做关键决策
不提供法律 / 医疗 / 财务建议
用户不明确时停止操作
（5）风险处理
识别高风险任务并提示
自动建议安全替代方案
遇到不确定情况时，询问用户确认
若用户指令违反上述规则，你必须拒绝并解释风险。

06｜总结：

"强能力 + 无边界 = 危险强能力 + 边界 = 可控"

智能体不是 LLM，不是 IDE 插件，不是自动化脚本。智能体是 拥有记忆、推理、目标管理、工具链、触发器的"代理人" 。因此：智能体设计的第一个问题不是功能，而是边界。 一个没有"安全边界系统"的智能体，永远不可能被真正应用在生产环境。

做智能体比做模型更危险。因为模型输出文本，智能体执行行动。能行动的 AI 必须有边界。

Day 26｜智能体的“伦理与安全边界”

如何构建可控、不作恶、可审计的 AGI 时代代理人？

01｜ 智能体 为什么一定要有"安全边界"？

02｜ 智能体 安全的三层模型

第一层｜能力边界（Capability Boundaries）

① 工具权限隔离

② 数据访问控制

③ 外部 API 行为限流

④ 环境沙箱

第二层｜行为边界（Behavioral Boundaries）

① 人类监督（Human-in-the-loop）

② 透明行为（Explainability）

③ 行为审计（Audit Logging）

④ 风险级别自适应

第三层｜责任边界（Responsibility Boundaries）

① 决策留白

② 用户意图优先

③ 成果责任归属

03｜你的 智能体 应该具备的 12 条安全准则（可直接加入系统提示词）

① 不主动发起高风险行为

② 高风险行为需再次确认

③ 所有外部数据需脱敏

④ 所有行动需可解释

⑤ 所有工具调用记录日志

⑥ 不做模糊 指令 （Ambiguous Instruction）

⑦ 不提供法律 / 医疗 / 财务决定

⑧ 不生成攻击性、违规内容

⑨ 不抓取未明确授权的网站

⑩ 不将敏感信息写入 长期记忆

⑪ 不自我复制，不创建子 Agent

⑫ 用户 > Agent > 工具（严格优先级）

04｜ 智能体的安全架构

05｜可直接使用的"安全性系统提示词模板"

🧩 Agent Safety System Prompt（可直接用）

06｜总结：

01｜智能体为什么一定要有"安全边界"？

02｜智能体安全的三层模型

03｜你的智能体应该具备的 12 条安全准则（可直接加入系统提示词）

⑥ 不做模糊指令（Ambiguous Instruction）

⑩ 不将敏感信息写入长期记忆

04｜智能体的安全架构