目录
文章目录
- 目录
- 设计哲学
-
- [ChatBot v.s. Dashboard](#ChatBot v.s. Dashboard)
- [AI 操作浏览器](#AI 操作浏览器)
- [AI 操作电脑桌面](#AI 操作电脑桌面)
- [AI 操作邮件](#AI 操作邮件)
- [AI 收集新闻等咨询](#AI 收集新闻等咨询)
设计哲学
- 从 "动脑" 到 "动手" 的范式升级:它无需人工介入具体操作,可接管设备的软件调用、文件操作、网络交互,完成从任务拆解、步骤执行到结果反馈的全流程闭环,真正让AI从 "语言助手" 变成 "能动手的数字员工"。
- 本地优先,数据隐私绝对可控:所有操作与数据均在本地设备闭环,无需上传云端,从根源上规避敏感数据泄露风险。无论是企业的商业机密、研发数据,还是个人的办公文件、隐私信息,都能实现100%自主掌控,这一特性让OpenClaw成为金融、医疗、政务等数据敏感行业的首选方案。
- 开源免费,社区驱动持续进化:代码完全开源透明,无需担心后门问题。无订阅费用、无 API 调用成本,长期使用零边际成本。活跃的全球开源社区为其提供持续的迭代更新,开发者可自由查看、修改源代码,甚至自定义技能插件,打造适配个性化需求的专属智能体。
- 跨端兼容,跨 APP 兼容,全场景无缝适配:完美支持 Windows、macOS、Linux 三大主流操作系统,兼容本地电脑、云服务器等多种设备,真正实现 "一次部署,多端协同"。无论是桌面端的办公自动化,还是服务端的服务器巡检,都能无缝承接。也完美支持微信、QQ、飞书、钉钉等主流 APP。
- 从安装到激活的极简流程:最快 1 分钟即可获得。
- 操作简单,零学习成本、零代码上手:聊天界面交互入口、对话式任务下达是其广泛流行的基础。
这些设计之间也不是简单的加法,而是互相促进的。记忆加上统一的上下文池,会带来数据复利。因为有持久化记忆,对话可以跨会话积累;因为有统一入口,所有来源的数据汇进同一个记忆池。你在Slack里讨论的工作内容、在 Telegram 里安排的日程、在 WhatsApp 里的个人对话,全部混在一起,形成了对你越来越完整的理解,以后完成任务也会越来越贴心。
Memory 加上 Skills,带来了自我进化的能力。今天学到的用法明天还在,能力会累积。AI 自己能写新的skill并且记住它的存在和用法,这就进入了正循环。因为 OpenClaw 自己能写代码,所以遇到没有现成skill可用的时候,它就可以当场造一个。这个新 Skill 会被保存下来,下次遇到类似场景直接复用。这就形成了自我进化的闭环。
而这些能力和界面的易用性加在一起,又带来了使用频率。入口越顺滑,调用越频繁,飞轮越转越快,能力越来越强。
ChatBot v.s. Dashboard
OpenClaw 选用大家天天都用的聊天软件作为交互入口,而不是像 Cursor、Manus 那般,需要在电脑上安装客户端软件。这样可以复用更广泛的使用习惯和渠道,让用这个工具的心智负担特别低。另一方面,因为大家本身就非常熟悉这些软件的使用,所以学习成本也几乎压到了零。拿起手机就能用,打开 Dashboard 就能聊,这是它能出圈的基础。
但实际上,这有深层次的考虑。
- 线性对话:聊天窗口要求对话是线性的,一条条消息往下排。但是深度的知识工作往往不是线性的。比如你需要引用另外一个 thread 的内容,需要把两个方向的探索 merge 在一起,需要在某个会话中 fork 出去。所以 Cursor 都有专门的 IDE UI 来进行专业化的支出。这是聊天窗口所不具备的。
- 信息密度:聊天窗口的信息密度肯定是低的,但凡要做更复杂一点的分析和思考就捉襟见肘了。比如图文混排的分析报告、复杂的表格、带格式的长文,这些在聊天里面看还都蛮痛苦的。
- 可观测性:聊天窗口基本上只能看见结果,而没有过程,尤其是对要分好几步才能完成的任务。这些在 Cursor 等等工具里会有自然的呈现,但 OpenClaw 会在长久的等待之后只返回一个结果。
而 OpenClaw 对自身的定位做了清晰的定义,即:"他要开发一个他妈妈也能正常使用的智能体"。所以这里面存在很明显的选择和妥协(trade-off),也是一种智慧。
AI 操作浏览器
OpenClaw 可以像人一样自动地操作浏览器,并根据自动化程序分为 4 个等级:
- L0 搜索 + 抓取:用 Brave Search 搜索,用 jina.ai 抓取页面内容,完全不需要浏览器。日常 80% 的信息获取靠这一层就够了。
- L1 无头浏览器(Headless Chrome):Headless 的意思是没有界面,浏览器在后台默默运行。适合那些需要加载 JavaScript 才能显示内容的页面。比如有些网站用 React 或 Vue 写的,不运行 JS 就是一片空白,这时候 L0 的抓取就失效了,需要 L1 来处理。但有些网站反爬技术高,无头模式会被识别为爬虫。
- L2 有头浏览器 + DOM 操作:跟人类平时打开浏览器一样,有完整的界面。AI 通过获取网页上的 DOM 元素(DOM 就是网页的结构,按钮、输入框、链接这些都是 DOM 元素)来点击、输入、操作。适合需要登录、填表单、点按钮的场景。比如让 OpenClaw 登录某个网站,它会找到用户名输入框、密码输入框,依次填入,然后点击登录按钮。
- L3 截图 + 视觉识别:有些信息只存在于图片里,比如商品图、参数表、图表,DOM 里根本拿不到这些信息。这时候让 AI 截图,然后用大模型的视觉能力识别图片内容。这是最后一层兜底方案,速度最慢,但能处理 L2 搞不定的情况。
Brave Search(联网搜索)
OpenClaw 内置的联网搜索功能由 Brave Search API 提供,装了之后 OpenClaw 能上网查资料、搜新闻、找答案。
前提是需要申请一个免费的 Brave Search API key(brave.com/search/api),要先注册 Brave 账号,然后绑一张海外 Visa 卡。注册账户后,每个月有 2000 次免费搜索额度,日常够用了。注意或者上闲鱼搜 Brave Search API,花几十块买一个。
bash
clawhub install brave-search
如果买了 GLM API,也可以直接使用 GLM 联网搜索 MCP 代替。
jina.ai 网页信息爬取
jina.ai Reader 用于联网搜索到结果之后,自动打开链接、读取网页内容。并且它不用打开浏览器,用法极其简单:在任何网址前面加上 https://r.jina.ai/XXX 这个前缀就行。比如想抓取 https://example.com/article 的内容,只需要访问 https://r.jina.ai/https://example.com/article 即可,它就会返回干净的 AI 友好的 Markdown 格式内容,AI 读起来很舒服。
OpenClaw 操作有头浏览器
OpenClaw 内置了有头浏览器控制能力,包括 Agent Browser(Agent 自动使用)和 Browser CLI(用户手动使用),使其可以像人类一样操作网页。
如果采用云主机部署,那么默认就是没有桌面环境的,而有头浏览器控制需要先装一个 Linux 桌面服务。
bash
# 官方标准桌面(GNOME):
sudo apt install ubuntu-desktop
# 开机默认进入桌面:
sudo systemctl set-default graphical.target
# 重启后生效:
sudo reboot
OpenClaw 操作有头浏览器的底层支撑是 CDP(Chrome DevTools Protocol),它是 Chrome 的一套远程调试协议。本来是为开发者工具设计的,现在成了有头浏览器自动化的标准。
Chrome 扩展模式
OpenClaw 控制 Chrome 浏览器有 2 种模式:
- 独立管理的 Chromium 实例:打开一个独立的 Chrome 浏览器,然后进行控制。
- 通过 Chrome 插件实现 Relay(中继):可以直接控制你正在用的 Chrome 标签页,需要安装 Chrome 扩展。
bash
# 安装 Chrome 扩展
openclaw browser extension install
# 获取扩展目录路径
openclaw browser extension path
在 Chrome 中加载扩展:
- 打开 Chrome → 访问 chrome://extensions
- 启用 "开发者模式"
- 点击 "加载已解压的扩展程序"
- 选择上面命令打印的目录
- 固定扩展到工具栏
- 点击扩展图标将其固定,方便后续操作。
接下来就可以用 openclaw 操作浏览器了。
注意,扩展作为静态文件包含在 OpenClaw 发行版中,所以升级 OpenClaw 后:
- 重新运行 openclaw browser extension install 刷新文件。
- 在 chrome://extensions 页面点击扩展的 "重新加载" 按钮。
Browser CLI 模式
下面是 Browser CLI 的操作示例。
- 查看浏览器状态:
bash
$ openclaw browser status
profile: openclaw
enabled: true
running: false
cdpPort: 18998
cdpUrl: http://127.0.0.1:18998
browser: unknown
detectedBrowser: chrome
detectedPath: /Applications/Google Chrome.app/Contents/MacOS/Google Chrome
profileColor: #FF4500
- 启动浏览器:
bash
$ openclaw browser start

- 打开网页:
bash
openclaw browser open https://google.com

- 截图:
bash
$ openclaw browser screenshot

- 获取页面快照(用于 AI 理解页面结构)
bash
$ openclaw browser snapshot --format aria
- 创建多个浏览器配置:
bash
$ openclaw browser create-profile --name "work" --color "#3b82f6"
$ openclaw browser create-profile --name "personal" --color "#10b981"
# 切换使用不同的配置文件
$ openclaw browser start --browser-profile "work"
KasmVNC 远程桌面
OpenClaw 在操作浏览器的时候,经常会遇到验证码、二维码、滑块验证等验证。如果你采用云主机,这种时候你就需要远程桌面来进行人机协同。
KasmVNC 就是一个通过 VNC 协议的、基于网页的远程桌面服务,装上之后,你可以通过自己电脑的浏览器远程连接到云主机的桌面,直接看到 OpenClaw 正在操作的浏览器画面。需要的时候接管鼠标键盘,帮它过验证码,过完之后把控制权还给它,它继续干活。
AI 操作电脑桌面
peekaboo 是 openclaw 作者众多工具的之一,用于实现 MacOS 自动化,可识别屏幕并执行点击操作。
Peekaboo 为 macOS 带来高保真屏幕截图、AI 分析和完整的 GUI 自动化功能。它提供以下的功能:
- 像素级精确捕捉(窗口、屏幕、菜单栏),可选 Retina 2 倍缩放。
- 将 Peekaboo 工具(查看、点击、输入、滚动、热键、菜单、窗口、应用程序、停靠栏、空格)串联起来的自然语言代理。
- 使用结构化 JSON 发现菜单和菜单栏;无需点击。
bash
brew install steipete/tap/peekaboo
# 或
npx -y @steipete/peekaboo
AI 操作邮件
通过 POP3、IMAP、SMTP 等协议可以让 OpenClaw 作为客户端访问 email 邮箱服务器,继而完成邮件的接收和发送。

AI 收集新闻等咨询
新闻等咨询并整理成简报是 OpenClaw 的典型应用场景之一:
- 自动订阅和解析 RSS 源
- 智能筛选和分类新闻内容
- 定时生成结构化的简报
- 推送到你常用的聊天应用