「OpenClaw」我写了个桌面控制Skill，让龙虾接管电脑！(MacOS版)

KD2026-04-22 11:36

一、最近我做了一个新的 Skill：MacOS Desktop Control

它的目标很简单：让 AI Agent 能够在 macOS 上更稳定、更可控地完成桌面操作，比如打开应用、识别屏幕内容、点击按钮、输入文字、拖拽元素，以及读取窗口状态。
这个 skill 已经发布在 ClawHub 上 ：clawhub.ai/kd-oauth/de...

二、为什么要写这个Skill

macOs兼容性：现有Skill都没有专门针对macOS做兼容性配置。比如很多MacBook是Retina屏，截图是像素坐标(pixels)，但鼠标点击是逻辑坐标(point)。这里不做兼容的话，Agent就会"看得准，点不准"
中文兼容性：现有Skill没有对中文输入和识别的兼容。比如我要打字"你好"，其他Skill会无法正确输入，因为它们默认是键盘一个一个敲英文字母
macOs特性使用：现有Skill没有利用到macOS一些独有的特性。比如AppleScript很擅长打开app和读app标题，Apple自带的Apple Vision很适合读文字...等等

三、这个Skill能做什么？

这里我举两个简单的例子

1.点击侧边栏会话按钮

执行效果

OpenClaw识别到了会话栏，并且点击打开了会话

执行流程

可以看到OpenClaw用Skill的能力完成了整个流程

2.新建备忘录并输入"我是KD"

执行效果

直接打开并新建&输入，执行的很快，因为完全是本地操作

执行流程

Applescript负责切备忘录到前台，keyboard负责快捷键和文件输入

四、目录结构

markdown 复制代码

desktop-control-for-macos/
├── SKILL.md
├── _meta.json
├── requirements.txt
├── .DS_Store
└── scripts/
    ├── applescript_app.py
    ├── applescript_window.py
    ├── calibration.py
    ├── capture_screen.py
    ├── crop_image.py
    ├── init_coordinate_mapping.py
    ├── keyboard.py
    ├── locate_image_opencv.py
    ├── locate_text_ocr.py
    └── mouse.py

五、一个清晰的操作流水线

flowchart TD A[用 AppleScript 激活 App<br/>或读取窗口状态] B[初始化坐标映射] C[截取屏幕] D[用 OCR 或 OpenCV 找到目标] E[用鼠标或键盘执行动作] F[结束 / 验证结果] A --> B --> C --> D --> E --> F

六、写在最后

欢迎大家下载使用！有意见或建议可以留言，我会持续完善这个Skill

上一篇：鸟类识别数据集 - CUB_200

下一篇：基于全球经济类多源新闻的NLP情感分析与数据可视化（日间）2026年4月21日

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03Codex 下载安装指南：Windows 和 macOS 官方版下载 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 07CC-Switch & Claude 基于 Linux 服务器安装使用指南 08CC-Switch 下载、安装与使用配置指南【2026.5.29】09Codex 接入 DeepSeek API 完整配置文档 10几个好用的ip纯净度检测网站