
一、核心设计理念
本文围绕OpenClaw(曾用名:Clawdbot、Moltbot))的底层架构展开,其核心基于AI主权(AI Sovereignty) 与**操作系统即界面(OS as Interface)**两大设计原则。区别于依赖云端API的传统SaaS模式AI,Clawdbot强调数据主权,主张将用户隐私数据存储于本地服务器,这也是其采用本地优先架构的主要原因。
二、底层架构核心组件
-
网关(Gateway):作为统一接入多渠道消息的控制面入口,是整个系统的中枢连接模块。
-
中枢(Hub) :运行在用户核心计算设备上,作为唯一事实来源(Single Source of Truth),维护所有活跃对话的状态机、消息队列以及设备节点注册表,负责集中处理核心数据与决策。
-
客户端/节点(Spokes):作为与节点交互的主要界面,负责轮询与处理来自WhatsApp、移动端应用、Web控制台等多渠道的消息,通过结构化的上下文将信息聚合至中枢,解决多端同步问题。
-
通信机制 :基于WebSocket(全双工通信协议)建立连接并进行严格授权,完成服务器与客户端的设备配对。每个客户端节点可主动声明自身能力(如调用摄像头、发送通知等),网关会维护动态路由表,将功能映射到对应的WebSocket连接,实现精准的命令分发。
-
远程访问逻辑 :优先在本地处理,通过Tailscale(私有网络工具)实现外网访问,仅在需要公网连接时开启通道,确保数据传输安全。
-
-
智能体运行时(Agent Runtime) :其核心是**智能体事件循环(Agent Loop)**机制,将消息上下文、工具调用、回复动作、状态持久化转化为一个可观测的循环流程。
-
思考机制 :采用**思考层级(Thinking Level)**路由体系,支持按需调用不同能力的模型(如闲聊使用轻量模型、复杂代码使用大模型),并通过持久化配置实现用户偏好学习。
-
上下文与记忆优化 :基于**自适应压缩保障(Adaptive Compaction Safeguard)**策略,将上下文动态分块并进行递归摘要,在内存刷新前会向网关发送关键信息备份,实现记忆的高效存储与复用。
-
语音交互支持:通过智能体优化,实现自然的对话插话与轮替机制,弥补基础模型在交互流畅性上的不足。
-
三、四大核心设计原则
-
网关优先(Gateway First):以网关作为统一控制面,集中规划多渠道、多客户端、多节点的数据与决策,发挥类似中台架构的核心调度作用。
-
本地优先(Local First):优先在本地完成运算与操作,仅远程需求通过专用入口访问,保障数据低延迟调用与主权掌控。
-
操作系统即服务(OS as a Service) :将系统权限(如macOS的文件下载、录屏权限)进行前置管控,通过**拾取桥接工具(Pickup Bridge)**托管核心功能模块,搭建独立的AI操作系统边界。
-
技能生态(Skill Ecosystem):外部工具(如消息、图像、社交账号管理等)以插件形式融入智能体事件循环,通过标准化接口实现能力扩展。
四、关键技术细节
-
操作系统去界面化 :让智能体直接操控命令行(Command Line),而非构建复杂的图形用户界面或固定API。由于大模型训练时已学习海量Shell脚本,其天然适配命令行操作,无需为人类设计交互界面,只需为AI提供操作入口。
-
会话模型与并发控制
-
基于**会话通道(Session Channel)**实现互斥锁机制,同一时间仅处理一个核心对话,其他任务进入队列并实时反馈预计等待时长。
-
支持智能体间通信(Agent-to-Agent),可查询系统内活跃对话的元数据(如模型类型、上下文等),实现知识共享与任务协作(例如乒乓模式:A发送指令→B执行→返回结果)。
-
会话状态持久化 :将用户习惯与系统配置异步写入**会话JSON(Session JSON)**文件,重启后可恢复个性化设置。
-
-
IDE对接能力 :通过**IDE桥接工具(ACP Bridge)**实现VS Code等编辑器与Clawdbot网关的双向同步,支持在编辑器内直接调用智能体能力。
-
声明式UI(Declarative UI):服务端不直接生成HTML/JS代码,而是输出描述UI意图的文件(如"一个带日期选择器和提交按钮的表单"),客户端通过Web Components、React UI等组件库渲染为原生界面,实现微应用的即时构建与组件复用。
-
工具生态
-
Pickup:基于机器视觉的屏幕控件识别与操控工具,提供类似自动化的操作能力。
-
Three Cookie:用于绕过浏览器运行时直接获取会话令牌,无需输入API Key即可继承用户权限。
-
Wordsmith:基于Rock SQL的Twitter/X客户端工具,支持实时信息获取。
-
其他技能:如Summarize(内容总结)、Article(网页搜索)、Snap(摄像头连接)等,均通过技能说明文件定义能力,并以插件形式集成。
-
五、安全架构与防御纵深
-
最小权限原则 :智能体仅获取完成任务所需的最低权限。例如,当需要录屏权限而未获授权时,会直接返回**权限缺失(Missing Permission)**提示,拒绝静默失败或尝试绕过权限。
-
Docker沙箱(Docker Sandbox):不受信任或复杂的代码在隔离的虚拟机内运行,避免直接操作主机系统,降低安全风险。
-
设备配对(Device Pairing):默认开启设备配对验证,未知设备尝试接入时,需输入由主机端生成的配对码,防止恶意程序接管智能体。
六、开源意义与行业影响
-
Clawdbot由创始人Peter Stevenson独立设计开发,整合了行业共识与创新技术。其开源属性使其有望成为未来智能体(Agent)生态的基础设施标准。
-
已有PC端产品基于Clawdbot框架重构了底层架构,并计划融合Cloudwork与技能能力,进一步拓展智能体的应用边界。
七、核心术语对照表
| 英文术语 | 中文释义 | 核心说明 |
|---|---|---|
| AI Sovereignty | AI主权 / 主权AI | 核心在于用户掌控本地数据与运算主权,区别于云端SaaS模式 |
| Gateway | 网关 | 系统统一接入与控制入口,包含Hub和Spokes模块 |
| Single Source of Truth | 唯一事实来源 | 特指Hub模块,作为所有数据与状态的核心存储与处理中心 |
| WebSocket | WebSocket协议 | 支持服务器与客户端双向实时通信的协议,保障指令与数据传输 |
| Agent Loop | 智能体事件循环 | Agent Runtime的核心机制,实现消息、工具、回复的闭环处理 |
| Thinking Level | 思考层级 | 按需调用不同能力模型的路由策略 |
| Adaptive Compaction Safeguard | 自适应压缩保障 | 上下文分块压缩与备份的记忆优化策略 |
| Command Line | 命令行 | AI优先操控的交互接口,适配大模型的训练数据特性 |
| Session Model | 会话模型 | 管理对话状态,支持智能体间通信与并发控制 |
| Declarative UI | 声明式UI | 以意图描述生成界面,而非直接编写前端代码 |
| Docker Sandbox | Docker沙箱 | 用于隔离运行风险代码的安全环境 |
| Missing Permission | 权限缺失 | 权限未获授权时的明确反馈机制 |
| Tailscale | 私有网络工具 | 实现安全的外网远程访问通道 |
| ACP Bridge | IDE桥接工具 | 连接编辑器与Clawdbot网关的同步工具 |
| Session JSON | 会话JSON文件 | 持久化存储用户习惯与系统设置的配置文件格式 |