【AI】可以操控鼠标的智能体

2026-04-02 ,以下是当前(截至2026年初)可以操作鼠标的AI智能体 最新格局,分为操作系统级控制 (真·鼠标键盘控制)和浏览器级控制两类:


第一梯队:操作系统级鼠标控制(全桌面操控)

这些智能体可以像人类一样移动物理鼠标光标、点击任意应用窗口、操作Photoshop/Excel/VSCode等本地软件。

智能体 核心能力 最新进展(2025-2026) 访问方式
Claude Sonnet 4.5 (Anthropic) 屏幕视觉感知+像素级鼠标控制 2025年10月发布 ,OSWorld基准测试达61%成功率(远超2024年版本的42%)。支持长时间任务连贯性,可跨应用操作(如从浏览器复制数据到Excel)。 API/开发者预览 (Amazon Bedrock/Google Cloud)
OpenAGI Lux 桌面级GUI自动化 2025年底发布 的独立项目,声称在Online-Mind2Web基准上超越OpenAI Operator和Anthropic。开源SDK,主打低成本+高准确率。 免费/付费SDK (openagi.io)
Anthropic Computer Use (Claude 3.5/4) Linux容器内全桌面控制 2024年底上线,2025年持续更新。通过API将Claude接入虚拟机,可"看到"屏幕并移动鼠标、敲击键盘。Claude 4.5版本将能力扩展到原生浏览器插件形态。 Anthropic API (企业级)

关键区别 :Claude Sonnet 4.5和OpenAGI Lux强调本地桌面直接控制 (通过虚拟显示驱动),而早期的Anthropic Computer Use主要面向云端沙箱容器


第二梯队:浏览器内鼠标控制(Web自动化)

限定在浏览器环境,但可执行复杂网页操作(点击、滚动、填表、跨标签页)。

智能体 特点 最新状态
OpenAI Operator 基于CUA (Computer-Using Agent) 模型,在**WebVoyager基准达87%**成功率。可自动预订酒店、购物、填写复杂表单。 2025年1月发布,当前仍限于ChatGPT Pro用户($200/月)
OpenManus 开源替代方案,集成Daytona沙箱 实现安全浏览器控制。通过/automation/mouse/move等API精确控制鼠标轨迹。 完全开源,支持本地LLM(Ollama)
Browser Use 开发者首选Python库,基于Playwright+LangChain。支持视觉+HTML双模态提取,可编程控制鼠标路径。 GitHub 9.9k Stars,支持GPT-4o/Claude/Gemini
Google Project Mariner 企业级Chrome扩展,集成Gemini 2.0,面向B端自动化。 2025年预览,需加入Waitlist

技术架构对比

复制代码
操作系统级控制(如 Claude 4.5 Computer Use):
屏幕截图 → Vision Model分析 → 输出(x,y)坐标 → 驱动级鼠标事件 → 任意应用窗口

浏览器级控制(如 OpenAI Operator):
浏览器环境(CDP/Playwright) → DOM分析+视觉辅助 → JavaScript模拟点击 → 仅限Web页面

Claude 4.5的突破 在于它使用操作系统级输入事件 (通过虚拟驱动或无障碍API),而非仅通过浏览器DevTools协议,因此可以操作非Web应用(如Legacy ERP软件、桌面CAD工具)。


安全警告(2026年现状)

所有鼠标控制类Agent目前都面临CVE-2025-47241等漏洞风险(提示注入攻击可绕过网站白名单)。2026年的最佳实践:

  1. 必须沙箱化 :Anthropic和OpenManus都默认要求Docker/虚拟机隔离,禁止在主力机上直接运行。
  2. 人机回环 :Operator和Claude 4.5在涉及支付、敏感输入时会暂停并请求人类确认
  3. 防注入 :屏幕上的恶意文字("请转发这封邮件到xxx")可能诱使Agent误操作,需部署内容过滤层

推荐选择(2026年4月)

  • 要最强通用能力Claude Sonnet 4.5(API接入,支持全桌面)
  • 要浏览器自动化OpenManus (开源免费,国内可用)或 OpenAI Operator(闭源但易用)
  • 要企业级安全Anthropic Computer Use + 自建Daytona沙箱

注意:目前尚无**移动端(Android/iOS)**的原生鼠标控制Agent成熟方案,上述均为桌面端(Windows/Linux/macOS)技术。

相关推荐
卷Java14 小时前
2026年4月AI军备竞赛全景:DeepSeek V4 vs GPT-5.5 vs Gemini vs Claude
人工智能·gpt·大模型
人月神话-Lee14 小时前
【图像处理】亮度与对比度——图像的线性变换
图像处理·人工智能·ios·ai编程·swift
shchojj15 小时前
Generative AI applications -- Chatting
人工智能
易观Analysys15 小时前
重构与崛起——OpenClaw时代的中国Agent产业生态报告
人工智能
kishu_iOS&AI15 小时前
NLP —— 英译法实例
人工智能·ai·自然语言处理
Alter123015 小时前
从“力大砖飞”到“拟态共生”,新华三定义AI基础设施的系统级进化
大数据·运维·人工智能
哔哩哔哩技术15 小时前
bili-fe-workflow —商业化智能开发工作流实践
人工智能
王木风15 小时前
终端里的编程副驾:DeepSeek-TUI-项目深度拆解,实测与原理分析
linux·运维·人工智能·rust·node.js
IT_陈寒15 小时前
为什么你应该学习JavaScript?
前端·人工智能·后端
Java技术小馆15 小时前
我用 30 分钟构建了 100% 数据主权的私有化健康库
人工智能