什么是 Agent Browser?
Agent Browser(AI 浏览器代理) 是一种基于大语言模型(LLM)和计算机视觉的智能自动化工具,能够自主操作浏览器完成复杂任务。
它通过"理解"网页内容和元素上下文来行动,而非依赖传统的 XPath 选择器------即使网站布局改变,也能正常运作。
核心特点
| 特点 | 说明 |
|---|---|
| 🤖 自主导航 | 能像人一样浏览网页,完成多步骤任务 |
| 👀 视觉理解 | 通过计算机视觉理解元素功能,不依赖固定选择器 |
| 🔄 自适应 | 网站变化时无需重新配置 |
| 🌐 全能型 | 可处理任意网站,不受 API 限制 |
典型使用场景
📦 企业场景
- 多供应商采购 --- 自动在多个供应商网站下单
- 数据采集 --- 从无 API 的系统提取数据
- 跨平台研究 --- 多网站比价、信息汇总
💼 办公场景
- 表单自动填写 --- 如保险理赔、申请表格
- 日程管理 --- 自动登录系统预约/安排
- 报表生成 --- 从多个后台系统提取数据
🧪 技术场景
- Web 测试 --- 模拟复杂用户行为进行测试
- UI 自动化验收 --- 自动检测页面功能是否正常
🔐 安全场景
- 威胁检测 --- 结合 MITRE ATT&CK 生成检测规则
- 安全巡检 --- 自动检测系统漏洞
一句话总结
Agent Browser = 让 AI 代替人工操控浏览器,自主完成网页上的各类复杂操作任务。