LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

目录

Windows-MCP的简介

1、特点

2、局限性

Windows-MCP的安装和使用方法

1、安装

2、使用方法

[Gemini CLI](#Gemini CLI)

[Claude Desktop](#Claude Desktop)

[MCP 工具](#MCP 工具)

Windows-MCP的案例应用


Windows-MCP 简介

Windows-MCP 是一个轻量级的开源项目,旨在实现 AI 代理与 Windows 操作系统之间的无缝集成。它充当 MCP 服务器,弥合了大型语言模型 (LLM) 与 Windows 操作系统之间的差距,使代理能够执行诸如文件导航、应用程序控制、UI 交互和 QA 测试等任务。

GitHub地址https://github.com/CursorTouch/Windows-MCP

1、 特点

>> 无缝 Windows 集成:与 Windows UI 元素进行原生交互,打开应用程序,控制窗口,模拟用户输入等。

>> 可以使用任何 LLM(视觉可选):与许多自动化工具不同,Windows MCP 不依赖于任何传统的计算机视觉技术或特定的微调模型;它可以与任何 LLM 一起使用,从而降低了复杂性和设置时间。

>> 丰富的 UI 自动化工具集:包括用于基本键盘、鼠标操作和捕获窗口/UI 状态的工具。

>> 轻量级和开源:依赖性极小,易于设置,并且在 MIT 许可证下提供完整的源代码。

>> 可定制和可扩展:可以轻松地调整或扩展工具,以满足独特的自动化或 AI 集成需求。

>> 实时交互:操作之间的典型延迟(例如,从一次鼠标单击到下一次鼠标单击)范围为 0.7 到 2.5 秒,并且可能因活动应用程序的数量和系统负载以及 LLM 的推理速度而略有不同。

2、 局限性

由于 MCP 依赖于 a11y 树,因此无法选择段落中的特定文本部分(正在努力解决)。

Type-Tool 旨在用于键入文本,而不是在 IDE 中进行编程,因为它会将程序作为一个整体键入到文件中(正在努力解决)。

请谨慎使用此 MCP,因为它会直接与您的 Windows 操作系统交互以执行操作。 避免在无法容忍此类风险的环境中部署它。

Windows-MCP 安装和使用方法

1、安装

先决条件

Python 3.13+

Anthropic Claude Desktop 应用程序或其他 MCP 客户端

UV (Package Manager) from Astra,使用 pip install uv 安装

DXT (Desktop Extension) from Anthropic,使用 npm install -g @anthropic-ai/dxt 安装

Windows 中使用英语作为默认语言,或者禁用 MCP Server 中针对其他语言的 Launch-Tool 和 Resize-Tool。

2、使用方法

Gemini CLI

在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。

在 settings.json 中添加 windows-mcp 配置并保存。

复制代码
{
  "theme": "Default",
  ...
  // MCP Server Config
  "mcpServers": {
    "windows-mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "<path to the windows-mcp directory>",
        "run",
        "main.py"
      ]
    }
  }
}

在终端中重新运行 Gemini CLI。

Claude Desktop

克隆存储库

复制代码
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

构建桌面扩展 DXT。

npx @anthropic-ai/dxt pack

打开 Claude Desktop。

转到 Claude Desktop:Settings->Extensions->Install Extension(找到 .dxt 文件)-> Install。

MCP 工具

  • Claude 可以访问以下工具来与 Windows 交互:
  • Click-Tool:在屏幕上的给定坐标处单击。
  • Type-Tool:在元素上键入文本(可以选择清除现有文本)。
  • Clipboard-Tool:使用系统剪贴板复制或粘贴。
  • Scroll-Tool:在窗口或特定区域上垂直或水平滚动。
  • Drag-Tool:从一个点拖动到另一个点。
  • Move-Tool:移动鼠标指针。
  • Shortcut-Tool:按键盘快捷键(Ctrl+c,Alt+Tab 等)。
  • Key-Tool:按单个键。
  • Wait-Tool:暂停定义的持续时间。
  • State-Tool:默认语言、浏览器、活动应用程序以及交互式、文本和可滚动元素的组合快照以及桌面的屏幕截图。
  • Resize-Tool:用于更改应用程序的窗口大小或位置。
  • Launch-Tool:从开始菜单启动应用程序。
  • Shell-Tool:执行 PowerShell 命令。
  • Scrape-Tool:抓取整个网页以获取信息。

Windows-MCP 案例应用

Windows-MCP 可以用于各种自动化任务,例如:

  • 文件导航:AI 代理可以浏览文件系统,查找和打开文件。
  • 应用程序控制:AI 代理可以启动、关闭和控制应用程序。
  • UI 交互:AI 代理可以与 Windows UI 元素交互,例如单击按钮、填写表单等。
  • QA 测试:AI 代理可以自动执行软件测试,例如模拟用户操作并验证结果。
  • 数据抓取:AI 代理可以使用 Scrape-Tool 从网页上提取信息。
相关推荐
神秘的猪头2 天前
🔌 给 AI 装上“三头六臂”!实战大模型接入第三方 MCP 全攻略
langchain·llm·mcp
神秘的猪头3 天前
🔌 把 MCP 装进大脑!手把手带你构建能“热插拔”工具的 AI Agent
langchain·llm·mcp
小兵张健3 天前
AI 页面与交互迁移流程参考
前端·ai编程·mcp
小兵张健3 天前
掘金发布 SOP(Codex + Playwright MCP + Edge)
前端·mcp
Qinana3 天前
从代码到智能体:MCP 协议如何重塑 AI Agent 的边界
前端·javascript·mcp
神秘的猪头3 天前
🚀 拒绝“手搓”工具!带你硬核手写 MCP Server,解锁 Agent 的无限潜能
agent·mcp·trae
warm3snow4 天前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
warm3snow5 天前
AI 核心技能系列:12 篇文章带你系统掌握大模型岗位必备技能
ai·transformer·agent·skill·mcp·fine-tunning
埃博拉酱5 天前
VS Code Remote SSH 连接 Windows 服务器卡在"下载 VS Code 服务器":prcdn DNS 解析失败的诊断与 BITS 断点续传
windows·ssh·visual studio code
3秒一个大5 天前
深入理解 MCP 协议:从本质解析到实战构建
mcp