LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

目录

Windows-MCP的简介

1、特点

2、局限性

Windows-MCP的安装和使用方法

1、安装

2、使用方法

[Gemini CLI](#Gemini CLI)

[Claude Desktop](#Claude Desktop)

[MCP 工具](#MCP 工具)

Windows-MCP的案例应用


Windows-MCP 简介

Windows-MCP 是一个轻量级的开源项目,旨在实现 AI 代理与 Windows 操作系统之间的无缝集成。它充当 MCP 服务器,弥合了大型语言模型 (LLM) 与 Windows 操作系统之间的差距,使代理能够执行诸如文件导航、应用程序控制、UI 交互和 QA 测试等任务。

GitHub地址https://github.com/CursorTouch/Windows-MCP

1、 特点

>> 无缝 Windows 集成:与 Windows UI 元素进行原生交互,打开应用程序,控制窗口,模拟用户输入等。

>> 可以使用任何 LLM(视觉可选):与许多自动化工具不同,Windows MCP 不依赖于任何传统的计算机视觉技术或特定的微调模型;它可以与任何 LLM 一起使用,从而降低了复杂性和设置时间。

>> 丰富的 UI 自动化工具集:包括用于基本键盘、鼠标操作和捕获窗口/UI 状态的工具。

>> 轻量级和开源:依赖性极小,易于设置,并且在 MIT 许可证下提供完整的源代码。

>> 可定制和可扩展:可以轻松地调整或扩展工具,以满足独特的自动化或 AI 集成需求。

>> 实时交互:操作之间的典型延迟(例如,从一次鼠标单击到下一次鼠标单击)范围为 0.7 到 2.5 秒,并且可能因活动应用程序的数量和系统负载以及 LLM 的推理速度而略有不同。

2、 局限性

由于 MCP 依赖于 a11y 树,因此无法选择段落中的特定文本部分(正在努力解决)。

Type-Tool 旨在用于键入文本,而不是在 IDE 中进行编程,因为它会将程序作为一个整体键入到文件中(正在努力解决)。

请谨慎使用此 MCP,因为它会直接与您的 Windows 操作系统交互以执行操作。 避免在无法容忍此类风险的环境中部署它。

Windows-MCP 安装和使用方法

1、安装

先决条件

Python 3.13+

Anthropic Claude Desktop 应用程序或其他 MCP 客户端

UV (Package Manager) from Astra,使用 pip install uv 安装

DXT (Desktop Extension) from Anthropic,使用 npm install -g @anthropic-ai/dxt 安装

Windows 中使用英语作为默认语言,或者禁用 MCP Server 中针对其他语言的 Launch-Tool 和 Resize-Tool。

2、使用方法

Gemini CLI

在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。

在 settings.json 中添加 windows-mcp 配置并保存。

复制代码
{
  "theme": "Default",
  ...
  // MCP Server Config
  "mcpServers": {
    "windows-mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "<path to the windows-mcp directory>",
        "run",
        "main.py"
      ]
    }
  }
}

在终端中重新运行 Gemini CLI。

Claude Desktop

克隆存储库

复制代码
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

构建桌面扩展 DXT。

npx @anthropic-ai/dxt pack

打开 Claude Desktop。

转到 Claude Desktop:Settings->Extensions->Install Extension(找到 .dxt 文件)-> Install。

MCP 工具

  • Claude 可以访问以下工具来与 Windows 交互:
  • Click-Tool:在屏幕上的给定坐标处单击。
  • Type-Tool:在元素上键入文本(可以选择清除现有文本)。
  • Clipboard-Tool:使用系统剪贴板复制或粘贴。
  • Scroll-Tool:在窗口或特定区域上垂直或水平滚动。
  • Drag-Tool:从一个点拖动到另一个点。
  • Move-Tool:移动鼠标指针。
  • Shortcut-Tool:按键盘快捷键(Ctrl+c,Alt+Tab 等)。
  • Key-Tool:按单个键。
  • Wait-Tool:暂停定义的持续时间。
  • State-Tool:默认语言、浏览器、活动应用程序以及交互式、文本和可滚动元素的组合快照以及桌面的屏幕截图。
  • Resize-Tool:用于更改应用程序的窗口大小或位置。
  • Launch-Tool:从开始菜单启动应用程序。
  • Shell-Tool:执行 PowerShell 命令。
  • Scrape-Tool:抓取整个网页以获取信息。

Windows-MCP 案例应用

Windows-MCP 可以用于各种自动化任务,例如:

  • 文件导航:AI 代理可以浏览文件系统,查找和打开文件。
  • 应用程序控制:AI 代理可以启动、关闭和控制应用程序。
  • UI 交互:AI 代理可以与 Windows UI 元素交互,例如单击按钮、填写表单等。
  • QA 测试:AI 代理可以自动执行软件测试,例如模拟用户操作并验证结果。
  • 数据抓取:AI 代理可以使用 Scrape-Tool 从网页上提取信息。
相关推荐
非凡ghost1 天前
Hard Disk Sentinel(固态硬盘监控) 多语便携版
windows·sentinel·软件需求
btyzadt1 天前
计算机域与工作组详解
运维·windows·计算机
wifi歪f1 天前
🎨 探究Function Calling 和 MCP 的奥秘
前端·ai编程·mcp
sukalot1 天前
windows显示驱动开发-调试间接显示驱动程序(三)
windows·驱动开发
清静诗意1 天前
Windows 11 WSL2 迁移到非系统盘(E 盘)教程
windows·wsl
王小义笔记1 天前
windows电脑如何执行openssl rand命令
windows·openssl
私人珍藏库2 天前
[Windows] 3D软件 Blender 5.0 alpha版
windows·3d·建模
努力还债的学术吗喽2 天前
pycharm找不到Tencent Cloud CodeBuddy如何安装[windows]?pycharm插件市场找不到插件如何安装?
ide·windows·pycharm·插件·plugin·codebuddy
两千次2 天前
写csv测试
服务器·数据库·windows
安当加密2 天前
SLA操作系统双因素认证实现Windows远程桌面OTP双因子安全登录—从零搭建企业级RDP安全加固体系
windows·安全