OpenClaw 的自动化能力实践案例

目录
设计哲学
- [ChatBot v.s. Dashboard](#ChatBot v.s. Dashboard)
[AI 操作浏览器](#AI 操作浏览器)
- [Brave Search（联网搜索）](#Brave Search（联网搜索）)
- [jina.ai 网页信息爬取](#jina.ai 网页信息爬取)
- [OpenClaw 操作有头浏览器](#OpenClaw 操作有头浏览器)
- - [Chrome 扩展模式](#Chrome 扩展模式)
  - [Browser CLI 模式](#Browser CLI 模式)
- [KasmVNC 远程桌面](#KasmVNC 远程桌面)
[AI 操作电脑桌面](#AI 操作电脑桌面)
[AI 操作邮件](#AI 操作邮件)
[AI 收集新闻等咨询](#AI 收集新闻等咨询)

设计哲学

从 "动脑" 到 "动手" 的范式升级：它无需人工介入具体操作，可接管设备的软件调用、文件操作、网络交互，完成从任务拆解、步骤执行到结果反馈的全流程闭环，真正让AI从 "语言助手" 变成 "能动手的数字员工"。
本地优先，数据隐私绝对可控：所有操作与数据均在本地设备闭环，无需上传云端，从根源上规避敏感数据泄露风险。无论是企业的商业机密、研发数据，还是个人的办公文件、隐私信息，都能实现100%自主掌控，这一特性让OpenClaw成为金融、医疗、政务等数据敏感行业的首选方案。
开源免费，社区驱动持续进化：代码完全开源透明，无需担心后门问题。无订阅费用、无 API 调用成本，长期使用零边际成本。活跃的全球开源社区为其提供持续的迭代更新，开发者可自由查看、修改源代码，甚至自定义技能插件，打造适配个性化需求的专属智能体。
跨端兼容，跨 APP 兼容，全场景无缝适配：完美支持 Windows、macOS、Linux 三大主流操作系统，兼容本地电脑、云服务器等多种设备，真正实现 "一次部署，多端协同"。无论是桌面端的办公自动化，还是服务端的服务器巡检，都能无缝承接。也完美支持微信、QQ、飞书、钉钉等主流 APP。
从安装到激活的极简流程：最快 1 分钟即可获得。
操作简单，零学习成本、零代码上手：聊天界面交互入口、对话式任务下达是其广泛流行的基础。

这些设计之间也不是简单的加法，而是互相促进的。记忆加上统一的上下文池，会带来数据复利。因为有持久化记忆，对话可以跨会话积累；因为有统一入口，所有来源的数据汇进同一个记忆池。你在Slack里讨论的工作内容、在 Telegram 里安排的日程、在 WhatsApp 里的个人对话，全部混在一起，形成了对你越来越完整的理解，以后完成任务也会越来越贴心。

Memory 加上 Skills，带来了自我进化的能力。今天学到的用法明天还在，能力会累积。AI 自己能写新的skill并且记住它的存在和用法，这就进入了正循环。因为 OpenClaw 自己能写代码，所以遇到没有现成skill可用的时候，它就可以当场造一个。这个新 Skill 会被保存下来，下次遇到类似场景直接复用。这就形成了自我进化的闭环。

而这些能力和界面的易用性加在一起，又带来了使用频率。入口越顺滑，调用越频繁，飞轮越转越快，能力越来越强。

ChatBot v.s. Dashboard

OpenClaw 选用大家天天都用的聊天软件作为交互入口，而不是像 Cursor、Manus 那般，需要在电脑上安装客户端软件。这样可以复用更广泛的使用习惯和渠道，让用这个工具的心智负担特别低。另一方面，因为大家本身就非常熟悉这些软件的使用，所以学习成本也几乎压到了零。拿起手机就能用，打开 Dashboard 就能聊，这是它能出圈的基础。

但实际上，这有深层次的考虑。

线性对话：聊天窗口要求对话是线性的，一条条消息往下排。但是深度的知识工作往往不是线性的。比如你需要引用另外一个 thread 的内容，需要把两个方向的探索 merge 在一起，需要在某个会话中 fork 出去。所以 Cursor 都有专门的 IDE UI 来进行专业化的支出。这是聊天窗口所不具备的。
信息密度：聊天窗口的信息密度肯定是低的，但凡要做更复杂一点的分析和思考就捉襟见肘了。比如图文混排的分析报告、复杂的表格、带格式的长文，这些在聊天里面看还都蛮痛苦的。
可观测性：聊天窗口基本上只能看见结果，而没有过程，尤其是对要分好几步才能完成的任务。这些在 Cursor 等等工具里会有自然的呈现，但 OpenClaw 会在长久的等待之后只返回一个结果。

而 OpenClaw 对自身的定位做了清晰的定义，即："他要开发一个他妈妈也能正常使用的智能体"。所以这里面存在很明显的选择和妥协（trade-off），也是一种智慧。

AI 操作浏览器

OpenClaw 可以像人一样自动地操作浏览器，并根据自动化程序分为 4 个等级：

L0 搜索 + 抓取：用 Brave Search 搜索，用 jina.ai 抓取页面内容，完全不需要浏览器。日常 80% 的信息获取靠这一层就够了。
L1 无头浏览器（Headless Chrome）：Headless 的意思是没有界面，浏览器在后台默默运行。适合那些需要加载 JavaScript 才能显示内容的页面。比如有些网站用 React 或 Vue 写的，不运行 JS 就是一片空白，这时候 L0 的抓取就失效了，需要 L1 来处理。但有些网站反爬技术高，无头模式会被识别为爬虫。
L2 有头浏览器 + DOM 操作：跟人类平时打开浏览器一样，有完整的界面。AI 通过获取网页上的 DOM 元素（DOM 就是网页的结构，按钮、输入框、链接这些都是 DOM 元素）来点击、输入、操作。适合需要登录、填表单、点按钮的场景。比如让 OpenClaw 登录某个网站，它会找到用户名输入框、密码输入框，依次填入，然后点击登录按钮。
L3 截图 + 视觉识别：有些信息只存在于图片里，比如商品图、参数表、图表，DOM 里根本拿不到这些信息。这时候让 AI 截图，然后用大模型的视觉能力识别图片内容。这是最后一层兜底方案，速度最慢，但能处理 L2 搞不定的情况。

Brave Search（联网搜索）

OpenClaw 内置的联网搜索功能由 Brave Search API 提供，装了之后 OpenClaw 能上网查资料、搜新闻、找答案。

前提是需要申请一个免费的 Brave Search API key（brave.com/search/api），要先注册 Brave 账号，然后绑一张海外 Visa 卡。注册账户后，每个月有 2000 次免费搜索额度，日常够用了。注意或者上闲鱼搜 Brave Search API，花几十块买一个。

bash 复制代码

clawhub install brave-search

如果买了 GLM API，也可以直接使用 GLM 联网搜索 MCP 代替。

jina.ai 网页信息爬取

jina.ai Reader 用于联网搜索到结果之后，自动打开链接、读取网页内容。并且它不用打开浏览器，用法极其简单：在任何网址前面加上 https://r.jina.ai/XXX 这个前缀就行。比如想抓取 https://example.com/article 的内容，只需要访问 https://r.jina.ai/https://example.com/article 即可，它就会返回干净的 AI 友好的 Markdown 格式内容，AI 读起来很舒服。

OpenClaw 操作有头浏览器

OpenClaw 内置了有头浏览器控制能力，包括 Agent Browser（Agent 自动使用）和 Browser CLI（用户手动使用），使其可以像人类一样操作网页。

如果采用云主机部署，那么默认就是没有桌面环境的，而有头浏览器控制需要先装一个 Linux 桌面服务。

bash 复制代码

# 官方标准桌面（GNOME）：
sudo apt install ubuntu-desktop
# 开机默认进入桌面：
sudo systemctl set-default graphical.target
# 重启后生效：
sudo reboot

OpenClaw 操作有头浏览器的底层支撑是 CDP（Chrome DevTools Protocol），它是 Chrome 的一套远程调试协议。本来是为开发者工具设计的，现在成了有头浏览器自动化的标准。

Chrome 扩展模式

OpenClaw 控制 Chrome 浏览器有 2 种模式：

独立管理的 Chromium 实例：打开一个独立的 Chrome 浏览器，然后进行控制。
通过 Chrome 插件实现 Relay（中继）：可以直接控制你正在用的 Chrome 标签页，需要安装 Chrome 扩展。

bash 复制代码

# 安装 Chrome 扩展
openclaw browser extension install
# 获取扩展目录路径
openclaw browser extension path

在 Chrome 中加载扩展：

打开 Chrome → 访问 chrome://extensions
启用 "开发者模式"
点击 "加载已解压的扩展程序"
选择上面命令打印的目录
固定扩展到工具栏
点击扩展图标将其固定，方便后续操作。

接下来就可以用 openclaw 操作浏览器了。

注意，扩展作为静态文件包含在 OpenClaw 发行版中，所以升级 OpenClaw 后：

重新运行 openclaw browser extension install 刷新文件。
在 chrome://extensions 页面点击扩展的 "重新加载" 按钮。

Browser CLI 模式

下面是 Browser CLI 的操作示例。

查看浏览器状态：

bash 复制代码

$ openclaw browser status

profile: openclaw
enabled: true
running: false
cdpPort: 18998
cdpUrl: http://127.0.0.1:18998
browser: unknown
detectedBrowser: chrome
detectedPath: /Applications/Google Chrome.app/Contents/MacOS/Google Chrome
profileColor: #FF4500

启动浏览器：

bash 复制代码

$ openclaw browser start

打开网页：

bash 复制代码

openclaw browser open https://google.com

截图：

bash 复制代码

$ openclaw browser screenshot

获取页面快照（用于 AI 理解页面结构）

bash 复制代码

$ openclaw browser snapshot --format aria

创建多个浏览器配置：

bash 复制代码

$ openclaw browser create-profile --name "work" --color "#3b82f6"
$ openclaw browser create-profile --name "personal" --color "#10b981"
# 切换使用不同的配置文件
$ openclaw browser start --browser-profile "work"

KasmVNC 远程桌面

OpenClaw 在操作浏览器的时候，经常会遇到验证码、二维码、滑块验证等验证。如果你采用云主机，这种时候你就需要远程桌面来进行人机协同。

KasmVNC 就是一个通过 VNC 协议的、基于网页的远程桌面服务，装上之后，你可以通过自己电脑的浏览器远程连接到云主机的桌面，直接看到 OpenClaw 正在操作的浏览器画面。需要的时候接管鼠标键盘，帮它过验证码，过完之后把控制权还给它，它继续干活。

AI 操作电脑桌面

peekaboo 是 openclaw 作者众多工具的之一，用于实现 MacOS 自动化，可识别屏幕并执行点击操作。

https://github.com/steipete/Peekaboo

Peekaboo 为 macOS 带来高保真屏幕截图、AI 分析和完整的 GUI 自动化功能。它提供以下的功能：

像素级精确捕捉（窗口、屏幕、菜单栏），可选 Retina 2 倍缩放。
将 Peekaboo 工具（查看、点击、输入、滚动、热键、菜单、窗口、应用程序、停靠栏、空格）串联起来的自然语言代理。
使用结构化 JSON 发现菜单和菜单栏；无需点击。

bash 复制代码

brew install steipete/tap/peekaboo
# 或
npx -y @steipete/peekaboo

AI 操作邮件

通过 POP3、IMAP、SMTP 等协议可以让 OpenClaw 作为客户端访问 email 邮箱服务器，继而完成邮件的接收和发送。

AI 收集新闻等咨询

新闻等咨询并整理成简报是 OpenClaw 的典型应用场景之一：

自动订阅和解析 RSS 源
智能筛选和分类新闻内容
定时生成结构化的简报
推送到你常用的聊天应用

OpenClaw 的自动化能力实践案例

目录

文章目录

设计哲学

ChatBot v.s. Dashboard

AI 操作浏览器

Brave Search（联网搜索）

jina.ai 网页信息爬取

OpenClaw 操作有头浏览器

Chrome 扩展模式

Browser CLI 模式

KasmVNC 远程桌面

AI 操作电脑桌面

AI 操作邮件

AI 收集新闻等咨询