2026-04-02 ,以下是当前(截至2026年初)可以操作鼠标的AI智能体 最新格局,分为操作系统级控制 (真·鼠标键盘控制)和浏览器级控制两类:
第一梯队:操作系统级鼠标控制(全桌面操控)
这些智能体可以像人类一样移动物理鼠标光标、点击任意应用窗口、操作Photoshop/Excel/VSCode等本地软件。
| 智能体 | 核心能力 | 最新进展(2025-2026) | 访问方式 |
|---|---|---|---|
| Claude Sonnet 4.5 (Anthropic) | 屏幕视觉感知+像素级鼠标控制 | 2025年10月发布 ,OSWorld基准测试达61%成功率(远超2024年版本的42%)。支持长时间任务连贯性,可跨应用操作(如从浏览器复制数据到Excel)。 | API/开发者预览 (Amazon Bedrock/Google Cloud) |
| OpenAGI Lux | 桌面级GUI自动化 | 2025年底发布 的独立项目,声称在Online-Mind2Web基准上超越OpenAI Operator和Anthropic。开源SDK,主打低成本+高准确率。 | 免费/付费SDK (openagi.io) |
| Anthropic Computer Use (Claude 3.5/4) | Linux容器内全桌面控制 | 2024年底上线,2025年持续更新。通过API将Claude接入虚拟机,可"看到"屏幕并移动鼠标、敲击键盘。Claude 4.5版本将能力扩展到原生浏览器插件形态。 | Anthropic API (企业级) |
关键区别 :Claude Sonnet 4.5和OpenAGI Lux强调本地桌面直接控制 (通过虚拟显示驱动),而早期的Anthropic Computer Use主要面向云端沙箱容器。
第二梯队:浏览器内鼠标控制(Web自动化)
限定在浏览器环境,但可执行复杂网页操作(点击、滚动、填表、跨标签页)。
| 智能体 | 特点 | 最新状态 |
|---|---|---|
| OpenAI Operator | 基于CUA (Computer-Using Agent) 模型,在**WebVoyager基准达87%**成功率。可自动预订酒店、购物、填写复杂表单。 | 2025年1月发布,当前仍限于ChatGPT Pro用户($200/月) |
| OpenManus | 开源替代方案,集成Daytona沙箱 实现安全浏览器控制。通过/automation/mouse/move等API精确控制鼠标轨迹。 |
完全开源,支持本地LLM(Ollama) |
| Browser Use | 开发者首选Python库,基于Playwright+LangChain。支持视觉+HTML双模态提取,可编程控制鼠标路径。 | GitHub 9.9k Stars,支持GPT-4o/Claude/Gemini |
| Google Project Mariner | 企业级Chrome扩展,集成Gemini 2.0,面向B端自动化。 | 2025年预览,需加入Waitlist |
技术架构对比
操作系统级控制(如 Claude 4.5 Computer Use):
屏幕截图 → Vision Model分析 → 输出(x,y)坐标 → 驱动级鼠标事件 → 任意应用窗口
浏览器级控制(如 OpenAI Operator):
浏览器环境(CDP/Playwright) → DOM分析+视觉辅助 → JavaScript模拟点击 → 仅限Web页面
Claude 4.5的突破 在于它使用操作系统级输入事件 (通过虚拟驱动或无障碍API),而非仅通过浏览器DevTools协议,因此可以操作非Web应用(如Legacy ERP软件、桌面CAD工具)。
安全警告(2026年现状)
所有鼠标控制类Agent目前都面临CVE-2025-47241等漏洞风险(提示注入攻击可绕过网站白名单)。2026年的最佳实践:
- 必须沙箱化 :Anthropic和OpenManus都默认要求Docker/虚拟机隔离,禁止在主力机上直接运行。
- 人机回环 :Operator和Claude 4.5在涉及支付、敏感输入时会暂停并请求人类确认。
- 防注入 :屏幕上的恶意文字("请转发这封邮件到xxx")可能诱使Agent误操作,需部署内容过滤层。
推荐选择(2026年4月)
- 要最强通用能力 :Claude Sonnet 4.5(API接入,支持全桌面)
- 要浏览器自动化 :OpenManus (开源免费,国内可用)或 OpenAI Operator(闭源但易用)
- 要企业级安全 :Anthropic Computer Use + 自建Daytona沙箱
注意:目前尚无**移动端(Android/iOS)**的原生鼠标控制Agent成熟方案,上述均为桌面端(Windows/Linux/macOS)技术。