【AI】可以操控鼠标的智能体

2026-04-02 ,以下是当前(截至2026年初)可以操作鼠标的AI智能体 最新格局,分为操作系统级控制 (真·鼠标键盘控制)和浏览器级控制两类:


第一梯队:操作系统级鼠标控制(全桌面操控)

这些智能体可以像人类一样移动物理鼠标光标、点击任意应用窗口、操作Photoshop/Excel/VSCode等本地软件。

智能体 核心能力 最新进展(2025-2026) 访问方式
Claude Sonnet 4.5 (Anthropic) 屏幕视觉感知+像素级鼠标控制 2025年10月发布 ,OSWorld基准测试达61%成功率(远超2024年版本的42%)。支持长时间任务连贯性,可跨应用操作(如从浏览器复制数据到Excel)。 API/开发者预览 (Amazon Bedrock/Google Cloud)
OpenAGI Lux 桌面级GUI自动化 2025年底发布 的独立项目,声称在Online-Mind2Web基准上超越OpenAI Operator和Anthropic。开源SDK,主打低成本+高准确率。 免费/付费SDK (openagi.io)
Anthropic Computer Use (Claude 3.5/4) Linux容器内全桌面控制 2024年底上线,2025年持续更新。通过API将Claude接入虚拟机,可"看到"屏幕并移动鼠标、敲击键盘。Claude 4.5版本将能力扩展到原生浏览器插件形态。 Anthropic API (企业级)

关键区别 :Claude Sonnet 4.5和OpenAGI Lux强调本地桌面直接控制 (通过虚拟显示驱动),而早期的Anthropic Computer Use主要面向云端沙箱容器


第二梯队:浏览器内鼠标控制(Web自动化)

限定在浏览器环境,但可执行复杂网页操作(点击、滚动、填表、跨标签页)。

智能体 特点 最新状态
OpenAI Operator 基于CUA (Computer-Using Agent) 模型,在**WebVoyager基准达87%**成功率。可自动预订酒店、购物、填写复杂表单。 2025年1月发布,当前仍限于ChatGPT Pro用户($200/月)
OpenManus 开源替代方案,集成Daytona沙箱 实现安全浏览器控制。通过/automation/mouse/move等API精确控制鼠标轨迹。 完全开源,支持本地LLM(Ollama)
Browser Use 开发者首选Python库,基于Playwright+LangChain。支持视觉+HTML双模态提取,可编程控制鼠标路径。 GitHub 9.9k Stars,支持GPT-4o/Claude/Gemini
Google Project Mariner 企业级Chrome扩展,集成Gemini 2.0,面向B端自动化。 2025年预览,需加入Waitlist

技术架构对比

复制代码
操作系统级控制(如 Claude 4.5 Computer Use):
屏幕截图 → Vision Model分析 → 输出(x,y)坐标 → 驱动级鼠标事件 → 任意应用窗口

浏览器级控制(如 OpenAI Operator):
浏览器环境(CDP/Playwright) → DOM分析+视觉辅助 → JavaScript模拟点击 → 仅限Web页面

Claude 4.5的突破 在于它使用操作系统级输入事件 (通过虚拟驱动或无障碍API),而非仅通过浏览器DevTools协议,因此可以操作非Web应用(如Legacy ERP软件、桌面CAD工具)。


安全警告(2026年现状)

所有鼠标控制类Agent目前都面临CVE-2025-47241等漏洞风险(提示注入攻击可绕过网站白名单)。2026年的最佳实践:

  1. 必须沙箱化 :Anthropic和OpenManus都默认要求Docker/虚拟机隔离,禁止在主力机上直接运行。
  2. 人机回环 :Operator和Claude 4.5在涉及支付、敏感输入时会暂停并请求人类确认
  3. 防注入 :屏幕上的恶意文字("请转发这封邮件到xxx")可能诱使Agent误操作,需部署内容过滤层

推荐选择(2026年4月)

  • 要最强通用能力Claude Sonnet 4.5(API接入,支持全桌面)
  • 要浏览器自动化OpenManus (开源免费,国内可用)或 OpenAI Operator(闭源但易用)
  • 要企业级安全Anthropic Computer Use + 自建Daytona沙箱

注意:目前尚无**移动端(Android/iOS)**的原生鼠标控制Agent成熟方案,上述均为桌面端(Windows/Linux/macOS)技术。

相关推荐
无巧不成书02182 小时前
Calibre 全系统安装配置教程|新手零门槛+命令行进阶+AI功能+内容服务器全解析
运维·服务器·人工智能·calibre·电子书管理·calibre命令行·电子书格式转换
碳基硅坊2 小时前
MiniMax 开源办公文档 Skills:一套覆盖 Word、Excel、PDF、PPT 的智能文档处理方案
人工智能
TonyH20022 小时前
AI未来发展趋势向何处?
人工智能·ai
AIminminHu2 小时前
OpenGL渲染与几何内核那点事-项目实践理论补充(二-1-(1):当你的CAD学会“想象”:图形技术与AI融合的三个层次)
c++·人工智能·几何·cad·几何内核·cad开发
极客BIM工作室2 小时前
JEPA到LeWM的网络结构演化全解析
人工智能
智算菩萨2 小时前
【Pygame】第5章 键盘与鼠标事件处理(附有2D射击游戏)
游戏·计算机外设·pygame
weixin_408099672 小时前
文字识别通用OCR接口调用与功能说明
图像处理·人工智能·后端·python·ocr·api·文字识别
小~小2 小时前
openclaw 运行原理
人工智能·openclaw
L-影2 小时前
集成学习:三大流派与实战作用(下篇)
人工智能·机器学习·ai·集成学习