OpenClaw 的自动化能力实践案例

目录

文章目录

  • 目录
  • 设计哲学
    • [ChatBot v.s. Dashboard](#ChatBot v.s. Dashboard)
  • [AI 操作浏览器](#AI 操作浏览器)
    • [Brave Search(联网搜索)](#Brave Search(联网搜索))
    • [jina.ai 网页信息爬取](#jina.ai 网页信息爬取)
    • [OpenClaw 操作有头浏览器](#OpenClaw 操作有头浏览器)
      • [Chrome 扩展模式](#Chrome 扩展模式)
      • [Browser CLI 模式](#Browser CLI 模式)
    • [KasmVNC 远程桌面](#KasmVNC 远程桌面)
  • [AI 操作电脑桌面](#AI 操作电脑桌面)
  • [AI 操作邮件](#AI 操作邮件)
  • [AI 收集新闻等咨询](#AI 收集新闻等咨询)

设计哲学

  1. 从 "动脑" 到 "动手" 的范式升级:它无需人工介入具体操作,可接管设备的软件调用、文件操作、网络交互,完成从任务拆解、步骤执行到结果反馈的全流程闭环,真正让AI从 "语言助手" 变成 "能动手的数字员工"。
  2. 本地优先,数据隐私绝对可控:所有操作与数据均在本地设备闭环,无需上传云端,从根源上规避敏感数据泄露风险。无论是企业的商业机密、研发数据,还是个人的办公文件、隐私信息,都能实现100%自主掌控,这一特性让OpenClaw成为金融、医疗、政务等数据敏感行业的首选方案。
  3. 开源免费,社区驱动持续进化:代码完全开源透明,无需担心后门问题。无订阅费用、无 API 调用成本,长期使用零边际成本。活跃的全球开源社区为其提供持续的迭代更新,开发者可自由查看、修改源代码,甚至自定义技能插件,打造适配个性化需求的专属智能体。
  4. 跨端兼容,跨 APP 兼容,全场景无缝适配:完美支持 Windows、macOS、Linux 三大主流操作系统,兼容本地电脑、云服务器等多种设备,真正实现 "一次部署,多端协同"。无论是桌面端的办公自动化,还是服务端的服务器巡检,都能无缝承接。也完美支持微信、QQ、飞书、钉钉等主流 APP。
  5. 从安装到激活的极简流程:最快 1 分钟即可获得。
  6. 操作简单,零学习成本、零代码上手:聊天界面交互入口、对话式任务下达是其广泛流行的基础。

这些设计之间也不是简单的加法,而是互相促进的。记忆加上统一的上下文池,会带来数据复利。因为有持久化记忆,对话可以跨会话积累;因为有统一入口,所有来源的数据汇进同一个记忆池。你在Slack里讨论的工作内容、在 Telegram 里安排的日程、在 WhatsApp 里的个人对话,全部混在一起,形成了对你越来越完整的理解,以后完成任务也会越来越贴心。

Memory 加上 Skills,带来了自我进化的能力。今天学到的用法明天还在,能力会累积。AI 自己能写新的skill并且记住它的存在和用法,这就进入了正循环。因为 OpenClaw 自己能写代码,所以遇到没有现成skill可用的时候,它就可以当场造一个。这个新 Skill 会被保存下来,下次遇到类似场景直接复用。这就形成了自我进化的闭环。

而这些能力和界面的易用性加在一起,又带来了使用频率。入口越顺滑,调用越频繁,飞轮越转越快,能力越来越强。

ChatBot v.s. Dashboard

OpenClaw 选用大家天天都用的聊天软件作为交互入口,而不是像 Cursor、Manus 那般,需要在电脑上安装客户端软件。这样可以复用更广泛的使用习惯和渠道,让用这个工具的心智负担特别低。另一方面,因为大家本身就非常熟悉这些软件的使用,所以学习成本也几乎压到了零。拿起手机就能用,打开 Dashboard 就能聊,这是它能出圈的基础。

但实际上,这有深层次的考虑。

  1. 线性对话:聊天窗口要求对话是线性的,一条条消息往下排。但是深度的知识工作往往不是线性的。比如你需要引用另外一个 thread 的内容,需要把两个方向的探索 merge 在一起,需要在某个会话中 fork 出去。所以 Cursor 都有专门的 IDE UI 来进行专业化的支出。这是聊天窗口所不具备的。
  2. 信息密度:聊天窗口的信息密度肯定是低的,但凡要做更复杂一点的分析和思考就捉襟见肘了。比如图文混排的分析报告、复杂的表格、带格式的长文,这些在聊天里面看还都蛮痛苦的。
  3. 可观测性:聊天窗口基本上只能看见结果,而没有过程,尤其是对要分好几步才能完成的任务。这些在 Cursor 等等工具里会有自然的呈现,但 OpenClaw 会在长久的等待之后只返回一个结果。

而 OpenClaw 对自身的定位做了清晰的定义,即:"他要开发一个他妈妈也能正常使用的智能体"。所以这里面存在很明显的选择和妥协(trade-off),也是一种智慧。

AI 操作浏览器

OpenClaw 可以像人一样自动地操作浏览器,并根据自动化程序分为 4 个等级:

  • L0 搜索 + 抓取:用 Brave Search 搜索,用 jina.ai 抓取页面内容,完全不需要浏览器。日常 80% 的信息获取靠这一层就够了。
  • L1 无头浏览器(Headless Chrome):Headless 的意思是没有界面,浏览器在后台默默运行。适合那些需要加载 JavaScript 才能显示内容的页面。比如有些网站用 React 或 Vue 写的,不运行 JS 就是一片空白,这时候 L0 的抓取就失效了,需要 L1 来处理。但有些网站反爬技术高,无头模式会被识别为爬虫。
  • L2 有头浏览器 + DOM 操作:跟人类平时打开浏览器一样,有完整的界面。AI 通过获取网页上的 DOM 元素(DOM 就是网页的结构,按钮、输入框、链接这些都是 DOM 元素)来点击、输入、操作。适合需要登录、填表单、点按钮的场景。比如让 OpenClaw 登录某个网站,它会找到用户名输入框、密码输入框,依次填入,然后点击登录按钮。
  • L3 截图 + 视觉识别:有些信息只存在于图片里,比如商品图、参数表、图表,DOM 里根本拿不到这些信息。这时候让 AI 截图,然后用大模型的视觉能力识别图片内容。这是最后一层兜底方案,速度最慢,但能处理 L2 搞不定的情况。

Brave Search(联网搜索)

OpenClaw 内置的联网搜索功能由 Brave Search API 提供,装了之后 OpenClaw 能上网查资料、搜新闻、找答案。

前提是需要申请一个免费的 Brave Search API key(brave.com/search/api),要先注册 Brave 账号,然后绑一张海外 Visa 卡。注册账户后,每个月有 2000 次免费搜索额度,日常够用了。注意或者上闲鱼搜 Brave Search API,花几十块买一个。

bash 复制代码
clawhub install brave-search

如果买了 GLM API,也可以直接使用 GLM 联网搜索 MCP 代替。

jina.ai 网页信息爬取

jina.ai Reader 用于联网搜索到结果之后,自动打开链接、读取网页内容。并且它不用打开浏览器,用法极其简单:在任何网址前面加上 https://r.jina.ai/XXX 这个前缀就行。比如想抓取 https://example.com/article 的内容,只需要访问 https://r.jina.ai/https://example.com/article 即可,它就会返回干净的 AI 友好的 Markdown 格式内容,AI 读起来很舒服。

OpenClaw 操作有头浏览器

OpenClaw 内置了有头浏览器控制能力,包括 Agent Browser(Agent 自动使用)和 Browser CLI(用户手动使用),使其可以像人类一样操作网页。

如果采用云主机部署,那么默认就是没有桌面环境的,而有头浏览器控制需要先装一个 Linux 桌面服务。

bash 复制代码
# 官方标准桌面(GNOME):
sudo apt install ubuntu-desktop
# 开机默认进入桌面:
sudo systemctl set-default graphical.target
# 重启后生效:
sudo reboot

OpenClaw 操作有头浏览器的底层支撑是 CDP(Chrome DevTools Protocol),它是 Chrome 的一套远程调试协议。本来是为开发者工具设计的,现在成了有头浏览器自动化的标准。

Chrome 扩展模式

OpenClaw 控制 Chrome 浏览器有 2 种模式:

  1. 独立管理的 Chromium 实例:打开一个独立的 Chrome 浏览器,然后进行控制。
  2. 通过 Chrome 插件实现 Relay(中继):可以直接控制你正在用的 Chrome 标签页,需要安装 Chrome 扩展。
bash 复制代码
# 安装 Chrome 扩展
openclaw browser extension install
# 获取扩展目录路径
openclaw browser extension path

在 Chrome 中加载扩展:

  1. 打开 Chrome → 访问 chrome://extensions
  2. 启用 "开发者模式"
  3. 点击 "加载已解压的扩展程序"
  4. 选择上面命令打印的目录
  5. 固定扩展到工具栏
  6. 点击扩展图标将其固定,方便后续操作。

接下来就可以用 openclaw 操作浏览器了。

注意,扩展作为静态文件包含在 OpenClaw 发行版中,所以升级 OpenClaw 后:

  • 重新运行 openclaw browser extension install 刷新文件。
  • 在 chrome://extensions 页面点击扩展的 "重新加载" 按钮。

Browser CLI 模式

下面是 Browser CLI 的操作示例。

  • 查看浏览器状态:
bash 复制代码
$ openclaw browser status

profile: openclaw
enabled: true
running: false
cdpPort: 18998
cdpUrl: http://127.0.0.1:18998
browser: unknown
detectedBrowser: chrome
detectedPath: /Applications/Google Chrome.app/Contents/MacOS/Google Chrome
profileColor: #FF4500
  • 启动浏览器:
bash 复制代码
$ openclaw browser start
  • 打开网页:
bash 复制代码
openclaw browser open https://google.com
  • 截图:
bash 复制代码
$ openclaw browser screenshot
  • 获取页面快照(用于 AI 理解页面结构)
bash 复制代码
$ openclaw browser snapshot --format aria
  • 创建多个浏览器配置:
bash 复制代码
$ openclaw browser create-profile --name "work" --color "#3b82f6"
$ openclaw browser create-profile --name "personal" --color "#10b981"
# 切换使用不同的配置文件
$ openclaw browser start --browser-profile "work"

KasmVNC 远程桌面

OpenClaw 在操作浏览器的时候,经常会遇到验证码、二维码、滑块验证等验证。如果你采用云主机,这种时候你就需要远程桌面来进行人机协同。

KasmVNC 就是一个通过 VNC 协议的、基于网页的远程桌面服务,装上之后,你可以通过自己电脑的浏览器远程连接到云主机的桌面,直接看到 OpenClaw 正在操作的浏览器画面。需要的时候接管鼠标键盘,帮它过验证码,过完之后把控制权还给它,它继续干活。

AI 操作电脑桌面

peekaboo 是 openclaw 作者众多工具的之一,用于实现 MacOS 自动化,可识别屏幕并执行点击操作。

Peekaboo 为 macOS 带来高保真屏幕截图、AI 分析和完整的 GUI 自动化功能。它提供以下的功能:

  • 像素级精确捕捉(窗口、屏幕、菜单栏),可选 Retina 2 倍缩放。
  • 将 Peekaboo 工具(查看、点击、输入、滚动、热键、菜单、窗口、应用程序、停靠栏、空格)串联起来的自然语言代理。
  • 使用结构化 JSON 发现菜单和菜单栏;无需点击。
bash 复制代码
brew install steipete/tap/peekaboo
# 或
npx -y @steipete/peekaboo

AI 操作邮件

通过 POP3、IMAP、SMTP 等协议可以让 OpenClaw 作为客户端访问 email 邮箱服务器,继而完成邮件的接收和发送。

AI 收集新闻等咨询

新闻等咨询并整理成简报是 OpenClaw 的典型应用场景之一:

  1. 自动订阅和解析 RSS 源
  2. 智能筛选和分类新闻内容
  3. 定时生成结构化的简报
  4. 推送到你常用的聊天应用
相关推荐
格林威2 小时前
工业相机图像高速存储(C#版):直接IO(Direct I/O)绕过系统缓存,附堡盟相机实战代码!
开发语言·人工智能·数码相机·计算机视觉·缓存·c#·视觉检测
小酒窝.2 小时前
详述 AI 应用落地的三个阶段
人工智能·ai 应用·openclaw
东离与糖宝2 小时前
AI IDE冲击下,Java老项目如何平滑迁移到Cursor/AI编程工作流(完整迁移方案)
java·人工智能
IT_陈寒2 小时前
Vite vs Webpack终极对决:5个关键指标告诉你谁更快?
前端·人工智能·后端
Tengfei Wang2 小时前
大语言模型前沿研究动态与趋势分析
人工智能·大模型
Master_oid2 小时前
机器学习34:元学习(Meta Learning)
人工智能·学习·机器学习
深小乐2 小时前
AI 周刊【2026.03.09-03.15】:Agent 入口争夺战,从桌面到云端
人工智能
汀沿河2 小时前
5 微调实验-lora-打造知乎风格问答机器人
人工智能
一水鉴天2 小时前
整体设计自动化部署方案定稿(部分):统一工程共生坊三层架构设计 20260315(豆包助手)
运维·架构·自动化