LLMs之Agent:Windows-MCP的简介、安装和使用方法、案例应用之详细攻略
目录
[Gemini CLI](#Gemini CLI)
[Claude Desktop](#Claude Desktop)
[MCP 工具](#MCP 工具)
Windows-MCP 的 简介

Windows-MCP 是一个轻量级的开源项目,旨在实现 AI 代理与 Windows 操作系统之间的无缝集成。它充当 MCP 服务器,弥合了大型语言模型 (LLM) 与 Windows 操作系统之间的差距,使代理能够执行诸如文件导航、应用程序控制、UI 交互和 QA 测试等任务。
GitHub地址 :https://github.com/CursorTouch/Windows-MCP
1、 特点
>> 无缝 Windows 集成:与 Windows UI 元素进行原生交互,打开应用程序,控制窗口,模拟用户输入等。
>> 可以使用任何 LLM(视觉可选):与许多自动化工具不同,Windows MCP 不依赖于任何传统的计算机视觉技术或特定的微调模型;它可以与任何 LLM 一起使用,从而降低了复杂性和设置时间。
>> 丰富的 UI 自动化工具集:包括用于基本键盘、鼠标操作和捕获窗口/UI 状态的工具。
>> 轻量级和开源:依赖性极小,易于设置,并且在 MIT 许可证下提供完整的源代码。
>> 可定制和可扩展:可以轻松地调整或扩展工具,以满足独特的自动化或 AI 集成需求。
>> 实时交互:操作之间的典型延迟(例如,从一次鼠标单击到下一次鼠标单击)范围为 0.7 到 2.5 秒,并且可能因活动应用程序的数量和系统负载以及 LLM 的推理速度而略有不同。
2、 局限性
由于 MCP 依赖于 a11y 树,因此无法选择段落中的特定文本部分(正在努力解决)。
Type-Tool 旨在用于键入文本,而不是在 IDE 中进行编程,因为它会将程序作为一个整体键入到文件中(正在努力解决)。
请谨慎使用此 MCP,因为它会直接与您的 Windows 操作系统交互以执行操作。 避免在无法容忍此类风险的环境中部署它。
Windows-MCP 的 安装和使用方法
1、安装
先决条件
Python 3.13+
Anthropic Claude Desktop 应用程序或其他 MCP 客户端
UV (Package Manager) from Astra,使用 pip install uv 安装
DXT (Desktop Extension) from Anthropic,使用 npm install -g @anthropic-ai/dxt 安装
Windows 中使用英语作为默认语言,或者禁用 MCP Server 中针对其他语言的 Launch-Tool 和 Resize-Tool。
2、使用方法
Gemini CLI
在文件资源管理器中导航到 %USERPROFILE%/.gemini 并打开 settings.json。
在 settings.json 中添加 windows-mcp 配置并保存。
{
"theme": "Default",
...
// MCP Server Config
"mcpServers": {
"windows-mcp": {
"command": "uv",
"args": [
"--directory",
"<path to the windows-mcp directory>",
"run",
"main.py"
]
}
}
}
在终端中重新运行 Gemini CLI。
Claude Desktop
克隆存储库
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP
构建桌面扩展 DXT。
npx @anthropic-ai/dxt pack
打开 Claude Desktop。
转到 Claude Desktop:Settings->Extensions->Install Extension(找到 .dxt 文件)-> Install。
MCP 工具
- Claude 可以访问以下工具来与 Windows 交互:
- Click-Tool:在屏幕上的给定坐标处单击。
- Type-Tool:在元素上键入文本(可以选择清除现有文本)。
- Clipboard-Tool:使用系统剪贴板复制或粘贴。
- Scroll-Tool:在窗口或特定区域上垂直或水平滚动。
- Drag-Tool:从一个点拖动到另一个点。
- Move-Tool:移动鼠标指针。
- Shortcut-Tool:按键盘快捷键(Ctrl+c,Alt+Tab 等)。
- Key-Tool:按单个键。
- Wait-Tool:暂停定义的持续时间。
- State-Tool:默认语言、浏览器、活动应用程序以及交互式、文本和可滚动元素的组合快照以及桌面的屏幕截图。
- Resize-Tool:用于更改应用程序的窗口大小或位置。
- Launch-Tool:从开始菜单启动应用程序。
- Shell-Tool:执行 PowerShell 命令。
- Scrape-Tool:抓取整个网页以获取信息。
Windows-MCP 的 案例应用
Windows-MCP 可以用于各种自动化任务,例如:
- 文件导航:AI 代理可以浏览文件系统,查找和打开文件。
- 应用程序控制:AI 代理可以启动、关闭和控制应用程序。
- UI 交互:AI 代理可以与 Windows UI 元素交互,例如单击按钮、填写表单等。
- QA 测试:AI 代理可以自动执行软件测试,例如模拟用户操作并验证结果。
- 数据抓取:AI 代理可以使用 Scrape-Tool 从网页上提取信息。