OpenClaw浏览器自动化实战:让AI拥有“眼睛“和“双手“

让AI助手拥有"眼睛"和"双手",实现真正的网页自动化操控

前言

在之前的探索中,我们成功部署了OpenClaw AI助手,但那时的AI就像一个"只会说话的大脑"------能理解问题却无法真正操作电脑。本文将详细记录如何为OpenClaw配置浏览器自动化功能,让AI助手真正拥有眼睛 (看网页)和双手(操作网页),变成能够自动打开网页、填写表单、截图保存的全能助手。

环境说明

基于以下环境进行配置:

配置项 参数
操作系统 Ubuntu 24.04 LTS
OpenClaw版本 2026.1.29
Node.js v22.22.0
AI模型 阿里云 DashScope qwen-flash

第一步:配置 OpenClaw 浏览器

浏览器类型说明

OpenClaw 支持两种浏览器模式:

Profile 说明 使用场景
openclaw OpenClaw 托管的独立浏览器实例 服务器环境,自动化任务(推荐)
chrome 通过 Chrome 扩展连接本地浏览器 需要使用已登录的账号

我们选择 openclaw 模式,因为服务器没有图形界面,且独立实例更安全。

配置文件编辑

编辑 OpenClaw 配置文件 ~/.openclaw/openclaw.json

json 复制代码
{
  "browser": {
    "enabled": true,
    "defaultProfile": "openclaw",
    "headless": true,
    "noSandbox": true
  }
}

配置项详解

配置项 说明
enabled true 启用浏览器功能
defaultProfile "openclaw" 使用 OpenClaw 托管的独立浏览器
headless true 无头模式,服务器没有显示器,必须开启
noSandbox true 禁用 Chrome 沙盒,在容器/服务器环境中需要

手动指定浏览器(可选)

如果系统没有预装 Chromium 基础的浏览器,可以手动指定:

json 复制代码
{
  "browser": {
    "executablePath": "/usr/bin/google-chrome-stable"
  }
}

第二步:解决中文显示乱码问题(可选)

如果需要在无头浏览器中正确显示中文,需要安装中文字体。

安装中文字体

bash 复制代码
sudo apt install -y fonts-noto-cjk fonts-wqy-zenhei

为什么需要两个字体包?

  • Noto CJK:Google 的 Noto 字体,支持中日韩文字,字体质量高
  • 文泉驿正黑:经典的开源中文字体,作为补充确保中文显示完整

第三步:重启服务并测试

启动浏览器

bash 复制代码
# 重启 Gateway 使配置生效
openclaw gateway restart

# 启动浏览器
openclaw browser --browser-profile openclaw start

# 检查浏览器状态
openclaw browser --browser-profile openclaw status

测试基本功能

bash 复制代码
# 打开网页
openclaw browser --browser-profile openclaw open https://www.baidu.com

# 获取页面快照
openclaw browser --browser-profile openclaw snapshot

# 截图
openclaw browser --browser-profile openclaw screenshot

重置会话

重要! 修改配置后需要重置会话,让 AI 重新加载工具列表:

bash 复制代码
openclaw sessions reset main

实际应用案例

配置完成后,可以通过自然语言控制浏览器完成各种任务:

案例1:自动化日记记录

text 复制代码
帮我打开 zhang.beer/diary,使用账号 test,密码 123456 登录,并添加今日美好,内容为:openclaw 自动操作浏览器成功!

AI 会自动完成登录、输入内容、提交等操作。

案例2:网页截图监控

text 复制代码
用浏览器打开百度的首页,然后截个图

AI 会打开网页并返回截图,可用于监控页面变化。

案例3:批量数据处理

结合其他工具,可以实现:

  • 自动化数据采集(爬取网页数据)
  • 定时监控与截图(监控训练曲线)
  • 批量表单填写(读取 Excel 填写表单)
  • 网页内容提取(提取表格保存为 CSV)

总结

通过本文的指导,我们为 OpenClaw AI 助手添加了强大的浏览器自动化能力:

  • 🌐 网页浏览:打开任意网页,支持 JavaScript 渲染
  • 📸 截图保存:全页面或指定元素截图
  • 🖱️ 自动操作:点击、输入、滚动、拖拽
  • 📋 内容提取:获取页面文本、表格、链接
  • 🗣️ 自然语言控制:用对话的方式指挥浏览器

现在,你的 AI 助手已经不再是"只会说话的大脑",而是真正能够帮你处理各种网页相关任务的全能助手了!

相关推荐
AI服务老曹2 分钟前
破局异构计算与海量协议:基于 Docker 容器化的国标 GB28181/RTSP 边缘计算 AI 视频管理平台架构设计与源码交付实践
人工智能·docker·边缘计算
俊哥V2 分钟前
每日 AI 研究简报 · 2026-06-09
人工智能·ai
计算机安禾4 分钟前
【数据库系统原理】第14篇:关系模式的语义约束:函数依赖的公理系统与闭包计算
人工智能·算法·机器学习
bluetata4 分钟前
Agentic AI 解读:从认知跃升到企业落地实战指南
人工智能
量化君也5 分钟前
快速入门量化交易都要学些什么?
大数据·人工智能·python·算法·金融
江湖有缘5 分钟前
Docker一键部署open-resume简历生成器
运维·docker·容器
o561-6o623o7鹿7 分钟前
陈,生理实验系统虚实结合型 生理学实验系统 生理学实验系统软件 生物机能实验系统
人工智能
Tbisnic11 分钟前
AI大模型学习 第十天:让程序“指挥”大模型 —— 从对话到工具调用
人工智能·python·ai·大模型·react·cot·提示词工程
婷婷81611 分钟前
我的前端项目构建时间从 8 分钟降到 40 秒,这 5 个优化起了关键作用
人工智能
沉在嵌入式的鱼12 分钟前
Jetson系列集成第三方库和应用程序到镜像方案
运维·服务器