让AI助手拥有"眼睛"和"双手",实现真正的网页自动化操控
前言
在之前的探索中,我们成功部署了OpenClaw AI助手,但那时的AI就像一个"只会说话的大脑"------能理解问题却无法真正操作电脑。本文将详细记录如何为OpenClaw配置浏览器自动化功能,让AI助手真正拥有眼睛 (看网页)和双手(操作网页),变成能够自动打开网页、填写表单、截图保存的全能助手。
环境说明
基于以下环境进行配置:
| 配置项 | 参数 |
|---|---|
| 操作系统 | Ubuntu 24.04 LTS |
| OpenClaw版本 | 2026.1.29 |
| Node.js | v22.22.0 |
| AI模型 | 阿里云 DashScope qwen-flash |
第一步:配置 OpenClaw 浏览器
浏览器类型说明
OpenClaw 支持两种浏览器模式:
| Profile | 说明 | 使用场景 |
|---|---|---|
| openclaw | OpenClaw 托管的独立浏览器实例 | 服务器环境,自动化任务(推荐) |
| chrome | 通过 Chrome 扩展连接本地浏览器 | 需要使用已登录的账号 |
我们选择 openclaw 模式,因为服务器没有图形界面,且独立实例更安全。
配置文件编辑
编辑 OpenClaw 配置文件 ~/.openclaw/openclaw.json:
json
{
"browser": {
"enabled": true,
"defaultProfile": "openclaw",
"headless": true,
"noSandbox": true
}
}
配置项详解
| 配置项 | 值 | 说明 |
|---|---|---|
| enabled | true | 启用浏览器功能 |
| defaultProfile | "openclaw" | 使用 OpenClaw 托管的独立浏览器 |
| headless | true | 无头模式,服务器没有显示器,必须开启 |
| noSandbox | true | 禁用 Chrome 沙盒,在容器/服务器环境中需要 |
手动指定浏览器(可选)
如果系统没有预装 Chromium 基础的浏览器,可以手动指定:
json
{
"browser": {
"executablePath": "/usr/bin/google-chrome-stable"
}
}
第二步:解决中文显示乱码问题(可选)
如果需要在无头浏览器中正确显示中文,需要安装中文字体。
安装中文字体
bash
sudo apt install -y fonts-noto-cjk fonts-wqy-zenhei
为什么需要两个字体包?
- Noto CJK:Google 的 Noto 字体,支持中日韩文字,字体质量高
- 文泉驿正黑:经典的开源中文字体,作为补充确保中文显示完整
第三步:重启服务并测试
启动浏览器
bash
# 重启 Gateway 使配置生效
openclaw gateway restart
# 启动浏览器
openclaw browser --browser-profile openclaw start
# 检查浏览器状态
openclaw browser --browser-profile openclaw status
测试基本功能
bash
# 打开网页
openclaw browser --browser-profile openclaw open https://www.baidu.com
# 获取页面快照
openclaw browser --browser-profile openclaw snapshot
# 截图
openclaw browser --browser-profile openclaw screenshot
重置会话
重要! 修改配置后需要重置会话,让 AI 重新加载工具列表:
bash
openclaw sessions reset main
实际应用案例
配置完成后,可以通过自然语言控制浏览器完成各种任务:
案例1:自动化日记记录
text
帮我打开 zhang.beer/diary,使用账号 test,密码 123456 登录,并添加今日美好,内容为:openclaw 自动操作浏览器成功!
AI 会自动完成登录、输入内容、提交等操作。
案例2:网页截图监控
text
用浏览器打开百度的首页,然后截个图
AI 会打开网页并返回截图,可用于监控页面变化。
案例3:批量数据处理
结合其他工具,可以实现:
- 自动化数据采集(爬取网页数据)
- 定时监控与截图(监控训练曲线)
- 批量表单填写(读取 Excel 填写表单)
- 网页内容提取(提取表格保存为 CSV)
总结
通过本文的指导,我们为 OpenClaw AI 助手添加了强大的浏览器自动化能力:
- 🌐 网页浏览:打开任意网页,支持 JavaScript 渲染
- 📸 截图保存:全页面或指定元素截图
- 🖱️ 自动操作:点击、输入、滚动、拖拽
- 📋 内容提取:获取页面文本、表格、链接
- 🗣️ 自然语言控制:用对话的方式指挥浏览器
现在,你的 AI 助手已经不再是"只会说话的大脑",而是真正能够帮你处理各种网页相关任务的全能助手了!