LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略

目录

Windows-MCP的简介

1、特点

2、局限性

Windows-MCP的安装和使用方法

1、安装

2、使用方法

[Gemini CLI](#Gemini CLI)

[Claude Desktop](#Claude Desktop)

[MCP 工具](#MCP 工具)

Windows-MCP的案例应用


Windows-MCP 简介

Windows-MCP 是一个轻量级的开源项目,旨在实现 AI 代理与 Windows 操作系统之间的无缝集成。它充当 MCP 服务器,弥合了大型语言模型 (LLM) 与 Windows 操作系统之间的差距,使代理能够执行诸如文件导航、应用程序控制、UI 交互和 QA 测试等任务。

GitHub地址https://github.com/CursorTouch/Windows-MCP

1、 特点

>> 无缝 Windows 集成:与 Windows UI 元素进行原生交互,打开应用程序,控制窗口,模拟用户输入等。

>> 可以使用任何 LLM(视觉可选):与许多自动化工具不同,Windows MCP 不依赖于任何传统的计算机视觉技术或特定的微调模型;它可以与任何 LLM 一起使用,从而降低了复杂性和设置时间。

>> 丰富的 UI 自动化工具集:包括用于基本键盘、鼠标操作和捕获窗口/UI 状态的工具。

>> 轻量级和开源:依赖性极小,易于设置,并且在 MIT 许可证下提供完整的源代码。

>> 可定制和可扩展:可以轻松地调整或扩展工具,以满足独特的自动化或 AI 集成需求。

>> 实时交互:操作之间的典型延迟(例如,从一次鼠标单击到下一次鼠标单击)范围为 0.7 到 2.5 秒,并且可能因活动应用程序的数量和系统负载以及 LLM 的推理速度而略有不同。

2、 局限性

由于 MCP 依赖于 a11y 树,因此无法选择段落中的特定文本部分(正在努力解决)。

Type-Tool 旨在用于键入文本,而不是在 IDE 中进行编程,因为它会将程序作为一个整体键入到文件中(正在努力解决)。

请谨慎使用此 MCP,因为它会直接与您的 Windows 操作系统交互以执行操作。 避免在无法容忍此类风险的环境中部署它。

Windows-MCP 安装和使用方法

1、安装

先决条件

Python 3.13+

Anthropic Claude Desktop 应用程序或其他 MCP 客户端

UV (Package Manager) from Astra,使用 pip install uv 安装

DXT (Desktop Extension) from Anthropic,使用 npm install -g @anthropic-ai/dxt 安装

Windows 中使用英语作为默认语言,或者禁用 MCP Server 中针对其他语言的 Launch-Tool 和 Resize-Tool。

2、使用方法

Gemini CLI

在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。

在 settings.json 中添加 windows-mcp 配置并保存。

复制代码
{
  "theme": "Default",
  ...
  // MCP Server Config
  "mcpServers": {
    "windows-mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "<path to the windows-mcp directory>",
        "run",
        "main.py"
      ]
    }
  }
}

在终端中重新运行 Gemini CLI。

Claude Desktop

克隆存储库

复制代码
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP

构建桌面扩展 DXT。

npx @anthropic-ai/dxt pack

打开 Claude Desktop。

转到 Claude Desktop:Settings->Extensions->Install Extension(找到 .dxt 文件)-> Install。

MCP 工具

  • Claude 可以访问以下工具来与 Windows 交互:
  • Click-Tool:在屏幕上的给定坐标处单击。
  • Type-Tool:在元素上键入文本(可以选择清除现有文本)。
  • Clipboard-Tool:使用系统剪贴板复制或粘贴。
  • Scroll-Tool:在窗口或特定区域上垂直或水平滚动。
  • Drag-Tool:从一个点拖动到另一个点。
  • Move-Tool:移动鼠标指针。
  • Shortcut-Tool:按键盘快捷键(Ctrl+c,Alt+Tab 等)。
  • Key-Tool:按单个键。
  • Wait-Tool:暂停定义的持续时间。
  • State-Tool:默认语言、浏览器、活动应用程序以及交互式、文本和可滚动元素的组合快照以及桌面的屏幕截图。
  • Resize-Tool:用于更改应用程序的窗口大小或位置。
  • Launch-Tool:从开始菜单启动应用程序。
  • Shell-Tool:执行 PowerShell 命令。
  • Scrape-Tool:抓取整个网页以获取信息。

Windows-MCP 案例应用

Windows-MCP 可以用于各种自动化任务,例如:

  • 文件导航:AI 代理可以浏览文件系统,查找和打开文件。
  • 应用程序控制:AI 代理可以启动、关闭和控制应用程序。
  • UI 交互:AI 代理可以与 Windows UI 元素交互,例如单击按钮、填写表单等。
  • QA 测试:AI 代理可以自动执行软件测试,例如模拟用户操作并验证结果。
  • 数据抓取:AI 代理可以使用 Scrape-Tool 从网页上提取信息。
相关推荐
Master_H_ice21 小时前
Claude Code安装试用记录(Windows)
windows·claude code
花生Peadar1 天前
有没有办法跨 AI 代理工具安装MCP、斜杠命令、Skill?
agent·ai编程·mcp
芳草萋萋鹦鹉洲哦1 天前
【windows】nginx如何注册为开机自启的服务(WinSW实现)
运维·windows·nginx
好名字更能让你们记住我1 天前
vmware虚拟机安装Windows10镜像【超详细图文版】!!!
windows·系统安装·vmware·虚拟机·图文教程
副露のmagic1 天前
字符串章节 leetcode 思路&实现
windows·python·leetcode
Java 码农1 天前
Windows 系统安装 Claude Code 完整教程
windows
DevnullCoffe1 天前
MCP × 亚马逊数据:用Model Context Protocol构建实时选品AI工作流
agent·mcp
猿类崛起@1 天前
CherryStudio配置本地MCP服务器实现FileSystem本地文件系统读写操作
人工智能·学习·程序员·大模型·agent·ai大模型·mcp
无籽西瓜a1 天前
详解bat脚本:语法、常见用法、注意事项、示例
windows·batch·cmd·自动化工具
X同志925261 天前
Claude Desktop + NanoBanana MCP:基于 Gemini 的智能图像编辑
mcp