openclaw 思考

一些建议

  • GUI or CLI
  • 数字化的基础设施完全是面向开发者和人来构建,无法很好地适配到智能体和大模型上去,龙虾这类智能体能发挥的空间有限
    • API开放、数据库、信息安全、认证、知识库接口等,都是较大的开发成本
    • 改造内部基础设施,使其适合通用AI能力的发挥;不用强制通用AI能力纳入人工体系,限制其发挥应有能力。
  • 领域或垂直大模型。这个思路未必正确,所有的AI能力都是通用能力,不会有跛脚的领域AI
    • 对实时性有要求的场景是例外,但这种实时性效果需要付出较大的人力和时间成本,且场景无法直接从通用模型进展中获益;

Pi、OpenClaw与Claude code

https://yun123.io/blog/cli-coding-agents-comparison/

|--------|------------------------------------------------|--------------------------------------------------------------------|
| 维度 | Claude Code + Skill | OpenClaw + Pi |
| 核心定位 | 通用模型 + 领域技能,偏"知识/流程专家" | 本地自托管 Agent 运行时,偏"执行型操作系统" |
| 技术核心 | 文件系统 Skill(指令/模板/脚本),按需加载 | 嵌入 Pi AgentSession + 自建 Gateway、Queue、Memory、Sandbox |
| 状态管理 | 以对话历史 + 按需读 Skill 文件为主,状态弱 | JSONL transcript + Memory.md + Session Tree,状态强且可审计[4][8][9] |
| 工具体系 | 以 Excel/PowerPoint/Docx/PDF 等文档操作为核心[1][2] | Shell、FS、Browser、消息通道、定时任务等全系统工具[4][8][9] |
| 安全治理 | 主要靠运行环境限制(API/Code/CLI 模式各自约束)[1] | 工具白名单、结构化命令过滤、沙箱容器执行[8][9] |
| 使用方式 | 在 IDE、CLI 或 Claude Web 里加载技能,执行特定流程 | 安装在本机/服务器上,通过消息/终端持续调用,像"常驻数字员工" |
| 典型场景 | 财务建模、数据分析、文档撰写与审阅、领域报告 | 邮件/日程自动化、DevOps 运维、浏览器操作、跨应用工作流 |

从技术本质来看:

  • 都是"能写代码并调用工具的模型 + 执行环境"。
  • 区别不在"是不是智能体",而在于:
    1. Claude Code 把"领域知识 + 办公工具"封装成可插拔技能 → 在具体办公/金融场景形成巨大生产力飞跃。
    2. OpenClaw 把"编程智能体内核 + 操作系统级控制"封成一个可部署基础设施 → 变成所有行业都能套的 Agent Runtime。

OpenClaw 为何能出圈?

OpenClaw 是建在 Pi coding agent 之上的本地自托管 AI Agent 运行时 :它不是"又一个聊天机器人",而是一个真正控制电脑 / 服务器执行任务的编程智能体平台[4][5]。

1. Pi Agent:极简但可扩展的"编程大脑"

Pi 本身的特征(从 Pi 文档和集成说明)[4]:

  • 提供 createAgentSession() 创建一个完整的 Agent 会话:
    • 负责 prompt、上下文管理、工具调用、思维链、历史压缩等
  • 通过事件流(message_start / tool_execution_start / turn_end 等)暴露整个 Agent 运行过程[4]
  • 内置 coding 工具(读写文件、bash、编辑器指令),非常适合做编程类智能体内核

Pi 的定位:一个最小可用的"AI 编程内核",你可以在上面自己搭一整套 agent 系统。OpenClaw 就是这样做的。

2. OpenClaw 的关键技术设计:从「模型」到「可控系统」

OpenClaw 没有把 Pi 当作"外部进程 RPC 调用",而是:

  • 直接在 TypeScript/Node 里 嵌入 Pi 的 AgentSession(runEmbeddedPiAgent)[4]
  • 在其外面再包一整套"工程级外壳":

(1)Agent Loop & Gateway:把"对话"变成「全流程执行」

架构上,OpenClaw实现了一个标准化的 agent loop[4][6][8]:

  1. 输入统一化(Channel Adapter)
    • 来自 WhatsApp / Telegram / Slack / Web 的消息都转成统一结构[6][8]。
  2. Gateway & Lane Queue
    • Gateway 把会话放进「Lane」(队列),每个会话一个 lane,默认串行执行,防止状态冲突[8]。
    • 避免多轮并行调用导致文件状态或进程状态被写乱,这一点在"能执行 shell / 文件操作"的 agent 中极其关键。
  3. Agent Runner
    • 调用 Pi 的会话、构造系统提示、挂载工具、控制思考模式、处理模型切换与 Failover 等[8]。
  4. Agentic Loop
    • 模型输出 → 工具调用 → 执行结果写回上下文 → 下一个决策,直到任务完成为止[6][8]。
  5. 输出与审计
    • 所有交互写入 JSONL transcript,可重放、可审计[8][9]。

这套 loop 实际上是**"一个能真正跑生产的 Agent 操作系统"**,而不是"一个好玩的编程助手"。

(2)工具体系:从「会写代码」到「会操作系统 / 浏览器 / 消息通道」

OpenClaw 在 Pi 的基础工具(read/write/bash/edit)之上,自行构建了完整的工具层[4][8][9]:

  • 重写/包装原有工具:
    • bash → 受控的 exec/process(可选择在宿主机或 Docker 沙箱中执行)[4][8]
    • 文件读写 → 根据是否启用 sandbox,限制访问路径
  • 新增一大堆工具:
    • 消息类:Telegram、Slack、Discord、WhatsApp 操作
    • 浏览器类:基于可访问性树(ARIA)的页面语义快照和点击/输入能力,降低 token 成本、提高解析精度[9]
    • 调度类:定时任务(cron)、会话跨设备、网关控制等
  • 工具策略层:
    • 每个工具都通过策略过滤(按 profile、provider、agent、group、sandbox 等)[4],防止误用高风险指令。

这就让 Pi 从一个"编程助手",变成了一个能真正操控电脑 / 服务器 / 浏览器 / 消息平台的操作层智能体

(3)记忆与可观测性:工程级的"可追溯智能体"

OpenClaw在记忆和观测上做了两件关键事[8][9]:

  1. 双层记忆结构
    • JSONL transcript:事实级审计日志------所有请求、工具调用、模型输出都在这里,适合审计/重放[8][9]。
    • Markdown Memory(MEMORY.md):更抽象的经验总结、偏好、项目进度等[9]。
    • 上面再叠加混合检索:向量搜索 + SQLite FTS5 关键词索引[9]。
  2. Context Guard & 自动压缩
    • 监控 token 用量,触发自动压缩历史、合并对话、保留关键信息[4][8]。
    • 提供"compaction-safeguard"和"context-pruning"等 Pi 扩展,按任务重要性/TTL 过滤保留内容[4]。

直接效果

  • 长期运行的 agent 不再靠"不断堆叠聊天记录",而是有结构化记忆。
  • 企业可以把 OpenClaw 当成"一个持续在线、可审计的数字员工",符合金融、政企对合规和可追责的要求。

(4)安全与多模型治理

  • Shell 安全:
    • 白名单命令模式:只允许特定形态(如 git / npm / ls 等)[9]
    • 阻断带 >, $(), &&, || 等高风险结构的命令[9]
  • 多模型、多 Key 管理:
    • Auth Profile Store:管理多个 API Key,自动轮换、遇到错误自动 failover[4]
    • Model Resolver:根据 provider(Anthropic / OpenAI / Gemini 等)和任务类型选择合适模型[4][8]

这一套东西本质是:把 LLM 当作一个不可靠组件,套上工程级治理与防护

这就是为什么安全圈和大厂架构师在分析 OpenClaw 架构时,会认为它是「真正适合进生产的 Agent 框架」,而不是单点工具[8][9]。

3. 为什么它能在几个月内成为 GitHub 最多 Star 的"实际软件项目"?

从公开数据看:

  • OpenClaw 从 2025 年 11 月开源,到 2026 年 3 月已经超过 25 万 Star,成为 GitHub 上 Star 数最高的非"列表类"软件项目[10]。
  • React 用了 13 年才达到了 24万+ Star,而 OpenClaw 约 100 天就达到了类似量级[10]。

这不是纯粹"炒作",而是技术形态决定了它的传播路径:

  1. 定位是"能真正替你干活"的本地 Agent
    • 自托管、本地-first,极大缓解企业和开发者对隐私、合规的担忧[4][8]。
    • 可以运行在家用 Mac mini / 树莓派 / VPS 上,门槛极低[4]。
  2. 开发者直接感知价值
    • 开箱可以:清理邮箱、管日程、登录网站、下载文件、运行脚本、跑 CI 等[4][6][8]。
    • 对很多个人开发者/小团队,等于突然免费多了一个全栈 DevOps + 助理。
  3. 社区易于扩展
    • 工具有统一适配层(toToolDefinitions + splitSdkTools),写一个工具基本就是写一个普通 TypeScript 函数[4]。
    • 结合 Pi 的扩展体系,可以很快做出新类型 agent(开发团队、客服团队、运营团队等)。

一句话:OpenClaw 做的是"把 Pi 编程智能体做成一个完整的、可落地的系统",刚好踩在"大家都在问:我能不能让 AI 真正替我干活?"这个需求点上。


实现原理

OpenClaw的架构由三个模块组成:Agent Loop、Tools、Gateway。

Agent Loop是龙虾的大脑,它负责决策和思考,它会根据当前任务判断下一步要做什么,并在需要的时候调用各种工具来完成行动。

Tools是龙虾的手脚,为Agent Loop提供各种能力,比如浏览网页、执行命令、调用 API、处理文件等,让龙虾真正具备干活的能力。

Gateway是龙虾的身体,它让整个系统能够持续在线,接收来自不同渠道的消息(比如 Telegram、飞书等),并把任务交给Agent Loop处理,再把结果返回给用户。

Agent Loop

Agent Loop,是AI接到一个任务之后,自己一步一步把事情做完的机制。

OpenClaw的Agent Loop是基于Pi SDK的,这是一个独立的开源项目:https://github.com/badlogic/pi-mono

Agent Loop不是OpenClaw的独家优势,Claude Code和Codex都有Agent Loop的逻辑,光从脑子的设计来看,OpenClaw跟Claude Code、Codex没什么本质区别。

Tools

第一层是基础工具。

这是最底层的一些能力,比如:读写文件、执行命令、浏览网页、搜索和抓取信息,这些工具让 AI 能够真正操作电脑,而不是只停留在聊天里。

第二层是 Skills。

Skills本质上是在教AI怎么像人一样干活。

它会告诉AI在任务场景下应该怎么做、应该调用哪些工具、步骤是什么。

比如:写代码前先扫描项目结构、修改文件前先做备份、写完代码之后自动运行测试,这些经验都可以写成 Skills,让AI在类似任务里自动复用。

第三层是外部工具。

这一层主要是接各种第三方服务,比如:调用外部 API、接入 SaaS 服务、扩展新的工具能力。

所以从底层来看,OpenClaw 的手脚并不是简单的一堆工具,而是一整套:基础工具 + Skills + 外部扩展组成的能力体系。

但工具体系本身并不是OpenClaw的独家优势,像Claude Code和Codex,都有同样的工具体系。

Gateway

第一,不关机。

龙虾是常驻在线的,就算系统崩了也会自动恢复,重启之后还能记住之前的对话。

比如凌晨3点服务器突然挂了,Gateway会自动把龙虾重新拉起来,并恢复之前的对话上下文,继续处理那些还没做完的任务。

等你第二天早上再来看,它就像从来没有断过一样,一直在工作。

第二,接所有平台。

Telegram、飞书、钉钉等20多个平台的消息,都可以统一接收和处理。

这意味着什么?你不需要为飞书单独写一个 bot,也不需要再为钉钉写个 bot。

Gateway在中间做了一层消息适配,不管消息来自哪个平台到AI 这里都会被转换成同一种格式。

你在飞书上给它发消息,它就在飞书上回复;在钉钉上发,它也会在钉钉上回你。

第三,会话隔离。

每个聊天窗口都是独立的,你和它的对话不会被别人的任务干扰。

比如你让它帮你查一份数据,同时又在另一个群里让它写一段文案。这两个任务在Gateway里是完全隔离的,各自有各自的上下文,不会串。

就像两个独立的员工在分别处理两件事,各干各的。

第四,排队控制。

同一时间只处理一个任务,不会因为消息太多而搞混。

比如说在一个飞书群里,我和同事同时发消息给龙虾,Gateway的处理策略很简单:谁先来做谁的,后面的任务排队。

这个设计看起来有点笨,但其实很聪明。

因为 LLM 的推理本来就不太适合并发,同时处理多个任务反而更容易出错,最后可能两个任务都做不好。

第五,心跳巡查。

心跳巡查是龙虾可以主动做任务的核心。

OpenClaw的主动执行能力主要靠两套机制:Heartbeat负责周期性巡检,Cron负责精确定时调度。

Gateway会定时主动检查有没有待办任务,如果有它就自己去执行,不需要你催它。

举个例子,你让它每天早上8点整理一份AI资讯摘要推送给你。

到了时间,Gateway的心跳机制就会自动触发这个任务,AI会自己去搜集信息、整理内容,然后发到你的飞书上。

你什么都不用做,打开飞书就能看到结果。

不过这里也有一个需要注意的地方:有时候 AI 会口头答应你已经配置好任务了,但实际上压根没写到待办里,这也就是很多时候龙虾不主动执行任务的原因。

第六,记忆刷盘。

当对话太长需要压缩时,它会先把重要内容存到记忆文件里,再进行压缩,避免关键信息丢失。

这点做的蛮好的,当我们和AI聊了很长一段时间,讨论了项目方案,也确认了不少关键决策。

如果直接压缩旧对话,这些结论就可能丢掉,下次它又得重新问我们。

Gateway的做法是:在压缩之前先把重要的结论和决策存到记忆文件里,这样即使上下文被压缩,关键信息也能随时找回来。

参考

1\] Agent Skills - Claude API Docs. \[2\] Use Claude for Excel. \[3\] Top 8 Claude Skills for Finance and Quantitative Developers. \[4\] Pi Integration Architecture - OpenClaw Docs. \[5\] Pi: The Minimal Agent Within OpenClaw. \[6\] Agent Loop - OpenClaw Docs. \[7\] Turn your Raspberry Pi into an AI agent with OpenClaw. \[8\] OpenClaw Architecture, Explained: How It Works. \[9\] OpenClaw Architecture Guide \| High-Reliability AI Agent Framework. \[10\] OpenClaw Just Passed React. Here's What the GitHub Star Leaderboard Actually Looks Like.

相关推荐
人道领域1 天前
OpenClaw 源码泄露风波:一场由 “手滑” 引发的 AI 安全大地震
人工智能·安全·open claw
devnullcoffee7 天前
亚马逊MCP数据运营实战:用Model Context Protocol打通选品AI工作流(完整代码+架构解析)
人工智能·架构·open claw·pangolinfo api·亚马逊 agent·open claw 场景·amazon 评论抓取
云雾J视界8 天前
2026年AI Agent框架选型指南:OpenClaw vs LangChain vs AutoGen 深度对比
大数据·人工智能·langchain·agent·open claw
brucelee18614 天前
Debian 安装 Ollama 教程
debian·ollama·open claw
茶陵后23 天前
吃灰安卓机变身 OpenClaw 服务器 — 完整手册
ai·aigc·agent·skill·mcp·open claw
可乐丿不加冰24 天前
open claw安装后启动运行web UI界面 - wsl版
ai·open claw
七牛云行业应用25 天前
OpenClaw 无法安装 Skills:完整排查与解决指南(2026)
跨平台·解决方案·安装失败·open claw·权限不足
云雾J视界1 个月前
从GitHub星标到商业闭环:Open Claw开源硬件产业化实战指南
人工智能·github·商业化·open claw
软件资深者1 个月前
阿里云轻量服务器部署 OpenClaw 完整教程
数据库·人工智能·ai·open claw·龙虾·openclaw安装·clawx