LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

目录

Windows-MCP的简介

1、特点

2、局限性

Windows-MCP的安装和使用方法

1、安装

2、使用方法

[Gemini CLI](#Gemini CLI)

[Claude Desktop](#Claude Desktop)

[MCP 工具](#MCP 工具)

Windows-MCP的案例应用


Windows-MCP 简介

Windows-MCP 是一个轻量级的开源项目,旨在实现 AI 代理与 Windows 操作系统之间的无缝集成。它充当 MCP 服务器,弥合了大型语言模型 (LLM) 与 Windows 操作系统之间的差距,使代理能够执行诸如文件导航、应用程序控制、UI 交互和 QA 测试等任务。

GitHub地址https://github.com/CursorTouch/Windows-MCP

1、 特点

>> 无缝 Windows 集成:与 Windows UI 元素进行原生交互,打开应用程序,控制窗口,模拟用户输入等。

>> 可以使用任何 LLM(视觉可选):与许多自动化工具不同,Windows MCP 不依赖于任何传统的计算机视觉技术或特定的微调模型;它可以与任何 LLM 一起使用,从而降低了复杂性和设置时间。

>> 丰富的 UI 自动化工具集:包括用于基本键盘、鼠标操作和捕获窗口/UI 状态的工具。

>> 轻量级和开源:依赖性极小,易于设置,并且在 MIT 许可证下提供完整的源代码。

>> 可定制和可扩展:可以轻松地调整或扩展工具,以满足独特的自动化或 AI 集成需求。

>> 实时交互:操作之间的典型延迟(例如,从一次鼠标单击到下一次鼠标单击)范围为 0.7 到 2.5 秒,并且可能因活动应用程序的数量和系统负载以及 LLM 的推理速度而略有不同。

2、 局限性

由于 MCP 依赖于 a11y 树,因此无法选择段落中的特定文本部分(正在努力解决)。

Type-Tool 旨在用于键入文本,而不是在 IDE 中进行编程,因为它会将程序作为一个整体键入到文件中(正在努力解决)。

请谨慎使用此 MCP,因为它会直接与您的 Windows 操作系统交互以执行操作。 避免在无法容忍此类风险的环境中部署它。

Windows-MCP 安装和使用方法

1、安装

先决条件

Python 3.13+

Anthropic Claude Desktop 应用程序或其他 MCP 客户端

UV (Package Manager) from Astra,使用 pip install uv 安装

DXT (Desktop Extension) from Anthropic,使用 npm install -g @anthropic-ai/dxt 安装

Windows 中使用英语作为默认语言,或者禁用 MCP Server 中针对其他语言的 Launch-Tool 和 Resize-Tool。

2、使用方法

Gemini CLI

在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。

在 settings.json 中添加 windows-mcp 配置并保存。

复制代码
{
  "theme": "Default",
  ...
  // MCP Server Config
  "mcpServers": {
    "windows-mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "<path to the windows-mcp directory>",
        "run",
        "main.py"
      ]
    }
  }
}

在终端中重新运行 Gemini CLI。

Claude Desktop

克隆存储库

复制代码
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

构建桌面扩展 DXT。

npx @anthropic-ai/dxt pack

打开 Claude Desktop。

转到 Claude Desktop:Settings->Extensions->Install Extension(找到 .dxt 文件)-> Install。

MCP 工具

  • Claude 可以访问以下工具来与 Windows 交互:
  • Click-Tool:在屏幕上的给定坐标处单击。
  • Type-Tool:在元素上键入文本(可以选择清除现有文本)。
  • Clipboard-Tool:使用系统剪贴板复制或粘贴。
  • Scroll-Tool:在窗口或特定区域上垂直或水平滚动。
  • Drag-Tool:从一个点拖动到另一个点。
  • Move-Tool:移动鼠标指针。
  • Shortcut-Tool:按键盘快捷键(Ctrl+c,Alt+Tab 等)。
  • Key-Tool:按单个键。
  • Wait-Tool:暂停定义的持续时间。
  • State-Tool:默认语言、浏览器、活动应用程序以及交互式、文本和可滚动元素的组合快照以及桌面的屏幕截图。
  • Resize-Tool:用于更改应用程序的窗口大小或位置。
  • Launch-Tool:从开始菜单启动应用程序。
  • Shell-Tool:执行 PowerShell 命令。
  • Scrape-Tool:抓取整个网页以获取信息。

Windows-MCP 案例应用

Windows-MCP 可以用于各种自动化任务,例如:

  • 文件导航:AI 代理可以浏览文件系统,查找和打开文件。
  • 应用程序控制:AI 代理可以启动、关闭和控制应用程序。
  • UI 交互:AI 代理可以与 Windows UI 元素交互,例如单击按钮、填写表单等。
  • QA 测试:AI 代理可以自动执行软件测试,例如模拟用户操作并验证结果。
  • 数据抓取:AI 代理可以使用 Scrape-Tool 从网页上提取信息。
相关推荐
小陈永不服输4 小时前
Windows下RabbitMQ完整安装指南
windows·分布式·rabbitmq
准女婿_5 小时前
优考试局域网系统V6.0.0版
linux·windows·用户运营
源代码杀手7 小时前
大模型微调训练资源占用查询:Windows 10 查看 NVIDIA 显卡GPU状态教程(替代 Ubuntu 下 watch nvidia-smi)
linux·windows·ubuntu
超级小忍10 小时前
从零开始:JDK 在 Windows、macOS 和 Linux 上的下载、安装与环境变量配置
java·windows·macos
胖大和尚13 小时前
windows端口转发
windows
Dontla17 小时前
Claude Code接入Serena mcp
mcp
大模型教程17 小时前
dify+MCP多应用,构建灵活的AI应用生态系统
程序员·llm·mcp
RainbowSea17 小时前
Spring AI 快速接入 DeepSeek 大模型
ai编程·deepseek·mcp
RainbowSea18 小时前
LLM ,MCP协议,A2A协议,RAG,智能体(AI Agent) 图解详细讲解
llm·ai编程·mcp