System Controller 完整能力手册
基于你电脑的实际硬件(小米笔记本 i5-6200U / 8GB / 940MX / 1080p)和 System Controller 技能的全部能力边界。
一、能力总览
复制代码
用户自然语言指令
↓
┌───────────────────────────────────────────┐
│ System Controller │
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────────┐ │
│ │ 窗口管理 │ │ 进程管理 │ │ 硬件控制 │ │
│ └────┬────┘ └────┬────┘ └──────┬──────┘ │
│ └──────────┼───────────────┘ │
│ ↓ │
│ ┌─────────────────────────────────────┐ │
│ │ GUI 自动化引擎 │ │
│ │ 鼠标 · 键盘 · 截图 · OCR · 视觉 │ │
│ └──────────────┬──────────────────────┘ │
│ ↓ │
│ ┌──────────┐ ┌───────────┐ ┌──────────┐ │
│ │ 串口通信 │ │ IoT 控制 │ │ 条件逻辑 │ │
│ └──────────┘ └───────────┘ └──────────┘ │
│ │
└───────────────────┬───────────────────────┘
↓
系统物理动作(硬件/软件/网络)
6 个模块,任意串联,无步骤上限。
二、六大模块详细能力
模块 1:窗口管理器 (window_manager.py)
| 操作 |
命令 |
说明 |
| 列出所有窗口 |
list |
获取标题、PID、位置、大小 |
| 激活窗口 |
activate --title "xxx" |
调到前台 |
| 关闭窗口 |
close --title "xxx" |
关闭指定窗口 |
| 最小化 |
minimize --title "xxx" |
收到任务栏 |
| 最大化 |
maximize --title "xxx" |
全屏窗口 |
| 调整大小 |
resize --title "xxx" --w 800 --h 600 --x 100 --y 50 |
自定义尺寸位置 |
| 发送按键 |
send-keys --title "xxx" --keys "ctrl+s" |
向目标窗口发键盘输入 |
模块 2:进程管理器 (process_manager.py)
| 操作 |
命令 |
说明 |
| 列出进程 |
list 或 list --name chrome |
PID、内存、CPU 占用 |
| 终止进程 |
kill --name notepad 或 kill --pid 1234 |
强制结束 |
| 启动程序 |
start "notepad.exe" |
运行任意 .exe |
| 进程详情 |
info --pid 1234 |
详细资源占用 |
| 系统状态 |
system |
整体运行概览 |
模块 3:硬件控制器 (hardware_controller.py)
音量
| 操作 |
命令 |
| 获取当前音量 |
volume get |
| 设置音量 (0-100) |
volume set --level 50 |
| 静音 |
volume mute |
| 取消静音 |
volume unmute |
屏幕
| 操作 |
命令 |
| 获取亮度 |
screen brightness get |
| 设置亮度 (0-100) |
screen brightness set --level 80 |
| 显示器信息 |
screen info |
电源
| 操作 |
命令 |
危险等级 |
| 锁屏 |
power lock |
🟢 低 |
| 睡眠 |
power sleep |
🟡 中 |
| 休眠 |
power hibernate |
🟡 中 |
| 关机 |
power shutdown |
🔴 高 |
| 重启 |
power restart |
🔴 高 |
| 取消关机/重启 |
power cancel |
🟢 低 |
网络
| 操作 |
命令 |
| 列出网卡 |
network list |
| WiFi 扫描 |
network wifi |
| 启用/禁用网卡 |
network enable/disable --adapter "Wi-Fi" |
| 网络信息 |
network info |
USB
模块 4:串口通信 (serial_comm.py) ⚠️ 需要硬件接入
| 操作 |
命令 |
说明 |
| 扫描 COM 口 |
list |
发现所有可用串口 |
| 自动检测波特率 |
detect --port COM3 |
智能匹配 |
| 发送数据 |
send --port COM3 --data "LED_ON" |
写入串口 |
| 收发对话 |
chat --port COM3 --data "GET_TEMP" |
发送并等待回复 |
| 持续监听 |
monitor --port COM3 --duration 60 |
实时打印收到的数据 |
适用设备:Arduino、ESP32、STM32、3D 打印机、传感器模块、PLC 等。
模块 5:IoT 控制器 (iot_controller.py) ⚠️ 需要配置
Home Assistant
| 操作 |
命令 |
| 列出设备 |
homeassistant --url URL --token TOKEN list |
| 查看状态 |
homeassistant --url URL --token TOKEN get --entity-id light.living_room |
| 打开设备 |
homeassistant --url URL --token TOKEN on --entity-id light.living_room |
| 关闭设备 |
homeassistant --url URL --token TOKEN off --entity-id climate.bedroom |
| 切换状态 |
homeassistant --url URL --token TOKEN toggle --entity-id switch.fan |
| 调用服务 |
homeassistant --url URL --token TOKEN service --domain light --service turn_on --entity_id light.desk |
通用 HTTP API
| 操作 |
命令 |
| GET 请求 |
http --url https://api.example.com get --path /data |
| POST 请求 |
http --url https://api.example.com post --path /data --body '{"key":"value"}' |
| PUT 请求 |
http --url https://api.example.com put --path /data/1 --body '{"status":"ok"}' |
模块 6:GUI 自动化引擎 (gui_controller.py) --- 核心交互层
🖱️ 鼠标操作
| 操作 |
命令 |
说明 |
| 移动 |
mouse move --x 500 --y 300 |
移到坐标点 |
| 左键点击 |
mouse click --x 500 --y 300 |
标准点击 |
| 右键点击 |
mouse right-click --x 500 --y 300 |
上下文菜单 |
| 双击 |
mouse double-click --x 500 --y 300 |
双击操作 |
| 拖拽 |
mouse drag --start-x 100 --start-y 200 --end-x 500 --end-y 400 |
按住移动后松开 |
| 滚动 |
mouse scroll --direction down --clicks 10 |
页面滚动 |
| 获取位置 |
mouse position |
当前鼠标在哪 |
⌨️ 键盘操作
| 操作 |
命令 |
示例 |
| 输入文字 |
keyboard type --text "Hello World" |
支持中文 |
| 快捷键 |
keyboard press --keys "ctrl+c" |
组合键 |
| 按键按下 |
keyboard key-down --key "shift" |
长按开始 |
| 按键释放 |
keyboard key-up --key "shift" |
长按结束 |
📸 截图操作
| 操作 |
命令 |
说明 |
| 全屏截图 |
screenshot full |
整个桌面 |
| 区域截图 |
screenshot region --x 0 --y 0 --w 1920 --h 1080 |
指定矩形区域 |
| 当前窗口截图 |
screenshot active-window |
只截活动窗口 |
| 屏幕分辨率 |
screenshot size |
返回宽高 |
| 列出截图 |
screenshot list |
已保存的截图列表 |
👁️ 视觉识别
| 操作 |
命令 |
说明 |
| OCR 文字提取 |
visual ocr |
全屏文字识别 |
| 区域 OCR |
visual ocr --x 100 --y 100 --w 800 --h 600 |
指定区域识别 |
| 图像模板查找 |
visual find --template "button.png" |
在屏幕上找图片 |
| 找到并点击 |
visual click-image --template "submit.png" |
找到图片位置自动点击 |
| 取像素颜色 |
visual pixel --x 200 --y 200 |
该点的颜色值 |
三、复杂度分级
Level 1 --- 单模块简单操作(3-5 步)
| 场景 |
操作链 |
耗时 |
| 快速静音开会 |
音量 mute → 截图确认 |
~2s |
| 清理后台程序 |
列进程 → 过滤非系统 → kill 全部 |
~5s |
| USB 设备检查 |
usb list → 串口 scan → 报告 |
~3s |
| 一键锁屏离开 |
截图存档 → lock |
~1s |
| WiFi 切换 |
wifi scan → 连接指定网络 |
~4s |
Level 2 --- 跨模块协作(5-10 步)
| 场景 |
操作链 |
跨模块数 |
| 开发环境启动 |
启动 VSCode + 终端 + 浏览器 → 排列窗口(左中右) → 亮度调高 → 音量适中 |
3 |
| 演示模式准备 |
关闭非必要窗口 → 全屏 PPT → 亮度 100% → 静音 → 截屏存档 |
3 |
| 夜间模式 |
亮度降到 20% → 夜间模式(Win 设置) → 关通知 → 静音 |
2 |
| 文件传输到手机 |
USB list → 识别手机 → 串口/ADB 发送文件 |
2-3 |
| 智能家居离家 |
Home Assistant 全关灯 → 关空调 → 锁屏 → ARM 安防系统 |
2 |
Level 3 --- 条件判断 + 循环(10-20 步)
| 场景 |
操作链 |
复杂度来源 |
| 智能内存清理 |
查看内存占用 → 列出高内存进程 → 判断哪些可安全关闭 → 逐个 kill → 再次检查确认释放效果 |
条件分支 |
| 自动截屏汇报 |
截全屏 → OCR 提取文字 → 识别当前在做什么 → 拼接成报告 → 存档 |
逻辑判断 |
| 多窗口工作区恢复 |
扫描已打开窗口 → 按类型分类(浏览器/IDE/聊天) → 自动排列到预设位置 |
智能布局 |
| 下载完成监控 |
监控下载文件夹变化 → 循环检测新文件 → 完成后弹窗+音量提醒 |
文件监控+通知 |
| 远程协助录屏 |
循环截图(每 n 秒) → 压缩打包 → 通过 IoT API 上传服务器 |
定时任务+API |
Level 4 --- 高级自动化(20-50 步)
| 场景 |
操作链 |
复杂度来源 |
| 全自动开发部署 |
Git pull → 编译项目 → 运行测试 → 解析结果 → 成功则启动服务/失败打开日志+发消息 |
多工具链+错误处理 |
| 桌面整理机器人 |
截屏 → OCR 识别每个图标 → 按类别归类(文档/图片/安装包) → 创建文件夹 → 拖拽移动 → 清空回收站 |
视觉识别+大量 GUI |
| 智能家居场景联动 |
检测时间→日落开灯→检测温度→>28°C 开空调→检测门窗未关推送警告→写入日志 |
多传感器+多设备+条件链 |
| RPA 表单自动填写 |
打开网页 → OCR 读字段名 → 从数据源取值 → 逐字段填入 → 提交 → 验证结果 → 下一页重复 |
循环+验证+容错 |
| 屏幕内容监控告警 |
每 30 秒截图 → 与上一帧对比 → 差异超阈值 → OCR 识别变化内容 → 通过 HTTP 推送到手机 |
图像差分+API 推送 |
Level 5 --- 极限复杂(50+ 步,需脚本编排)
| 场景 |
说明 |
| 无人值守工作站 |
定时唤醒 → 检查邮件/消息 → 自动回复常规问题 → 备份数据 → 整理磁盘 → 发送日报 → 待机。全程无需人工干预 |
| 多应用 RPA 流程 |
从 A 系统导出数据 → 格式化处理 → 导入 B 系统 → 校验 → 出错回滚报警 → 生成审计报告 |
| 游戏辅助挂机 |
截图 → 图像识别游戏界面 → 根据状态决策(战斗/采集/交易) → 循环执行 → 异常检测 → 自动退出 |
| 智能会议助手 |
会议前:开设备+调音量亮度+打开会议软件+共享屏幕;会议中:录音+记录动作;会后:生成纪要+发送参会人 |
四、五大应用场景
场景一:全屋智能中枢
所需设备:
复制代码
笔记本 ──┬── WiFi ──→ 小米空调 / 米家台灯 / 扫地机器人
├── 蓝牙 ──→ 智能门锁
├── USB ──→ Arduino 主控板
│ ├── DHT22 温湿度传感器
│ ├── 继电器模块 → 灯具电源
│ ├── 舵机 → 窗帘轨道
│ └── 红外发射器 → 电视/风扇
└── HTTP API → Home Assistant 服务器
└── 智能插座(鱼缸加热棒等)
一句话指令集:
| 你说 |
自动执行的操作序列 |
| "我到家了" |
开灯 → 开空调 26°C → 解除安防 → 拉窗帘 → 播报"欢迎回家,室温 XX 度" |
| "我要睡了" |
全屋灯光渐暗 → 关电视 → 空调睡眠模式 27°C → 启动安防 → 门锁上锁 |
| "太热了" |
读温湿度传感器 → 若 >28°C 开空调 24°C → 关窗帘挡阳 → 检查鱼缸加热棒 → 提醒补水 |
| "出门模式" |
关所有灯和电器 → 开启扫地机器人 → 空调关闭 → 门锁布防 → 手机推送确认 |
| "看电影" |
灯光 15% → 窗帘全关 → TV 开启 → 音量 40% → 笔记本 HDMI 输出画面 |
场景二:桌面工作站自动化
所需配置:
复制代码
笔记本 ── 扩展坞 ──┬── 2K 外接显示器 ×2
├── 机械键盘 + 鼠标
├── USB 音频接口 → 监听音箱
├── 千兆网线
└── 外置硬盘阵列(备份盘)
工作流快捷指令:
| 你说 |
自动执行 |
| "开始工作" |
双屏排列(左代码右文档)→ 打开 VS Code + Chrome + 终端 → 加载项目 → 音乐播放 → 音量 30% |
| "开会了" |
静音 → 截屏保存工作状态 → 打开 Zoom/腾讯会议 → 共享屏幕 → 开摄像头 |
| "代码写完了" |
Git commit + push → 运行测试 → 通过后群消息通知团队 → 备份代码到外置硬盘 |
| "我要专注" |
关闭非 IDE 窗口 → 屏幕亮度 80% → 断 WiFi(保留有线网)→ 每 45 分钟弹窗提醒休息 |
| "收工了" |
所有窗口截图存档 → 关 IDE/浏览器 → 今日变更摘要 → 同步云盘 → 锁屏 |
场景三:创客实验室
接入硬件:
复制代码
USB ──┬── Arduino Uno ──┬── 超声波测距(倒车雷达)
│ ├── LCD1602 显示屏
│ └── 蜂鸣器报警
│
├── ESP32 DevKit ──┬── OLED 显示(天气/时间)
│ └── 触摸按钮面板
│
└── 3D 打印机(串口 G-code 通信)
创意玩法:
| 你说 |
效果 |
| "开始打印这个模型" |
切片软件加载 STL → 生成 G-code → 串口发送给打印机 → 实时监控温度/进度 → 完成蜂鸣提示+手机推送 |
| "做个倒车雷达演示" |
Arduino 进入 PARKING 模式 → 循环测距 → <20cm 蜂鸣加速 → LCD 显示距离 → 电脑同步可视化波形 |
| "做个智能时钟" |
ESP32 获取成都天气时间 → OLED 刷新显示 → >30°C 闪烁红色警告 → 触摸切换显示模式 |
| "记录一周室温变化" |
每小时读一次温度 → 写入 CSV → 一周后自动生成折线图 → 异常波动邮件提醒 |
场景四:RPA 数字员工
替代日常重复劳动:
| 场景 |
操作流程 |
节省时间 |
| 每日财务报表 |
打开网银 → 登录 → 导出交易记录 → 格式化 Excel → 分类统计 → 生成月报 → 发邮件 |
每天 30 分钟 → 全自动 |
| 电商订单处理 |
刷新后台 → 筛选新订单 → 复制地址 → 填快递单号 → 标记发货 → 回复买家 |
每单 3 分钟 → 批量处理 |
| 数据采集爬虫 |
打开目标网站 → 搜索关键词 → 翻页采集 → OCR 提取表格数据 → 存数据库 → 下一页 |
手动 2h → 后台跑完通知 |
| 批量文件整理 |
扫描下载文件夹 → 按类型分类(PDF/图片/安装包/文档) → 重命名加日期 → 归档目录 → 清空回收站 |
每周 1h → 一键搞定 |
| 抢名额/抢票 |
提前打开页面 → 填好信息 → 到点自动刷新提交 → 成功弹窗+声音提示 → 失败重试 |
手速不够 → 毫秒级响应 |
场景五:游戏辅助
⚠️ 仅展示技术能力,实际使用需遵守各平台规则
| 操作 |
技术原理 |
| 自动挂机打金 |
截图识别界面 → 判断角色状态 → 决策移动/攻击/拾取 → 循环执行 → 异常掉线重连 |
| 自动钓鱼/种田 |
定时点击特定坐标 → 识别收获提示 → 重复操作 |
| 小地图解析 |
截取小地图 → 图像分析 → overlay 显示敌人方位/资源点 |
五、能力边界
✅ 能做到的
- 任何可见的 GUI 操作(屏幕上能看到就能点击/输入/拖拽)
- 任何有窗口的程序的生命周期控制和外观调整
- 任何系统硬件设置(音量、亮度、电源、网络、USB)
- 任何支持 API 的设备(通过 HTTP/串口接入)
- 任意长度的操作序列(Python 脚本无步骤上限)
- 多模块自由组合(窗口+GUI+硬件+IoT 一起上)
❌ 做不到的(或很勉强)
| 限制 |
原因 |
替代方案 |
| 无法绕过 CAPTCHA |
验证码需人工介入 |
第三方打码平台 API |
| 无法对抗反自动化 |
游戏反作弊、银行 U 盘等硬件级保护 |
无解 |
| OCR 准确率有限 |
复杂排版/手写体/低分辨率下出错 |
装 Tesseract + 中文语言包可提升 |
| 图像模板依赖 UI 稳定性 |
UI 变化后旧模板失效 |
需重新截图更新模板 |
| 无持久化记忆 |
每次从零开始不记住上次状态 |
配合 MEMORY.md 或外部数据库 |
| 操作速度受限 |
GUI 操作是实时的无法并行加速 |
可多线程但受限于物理屏幕 |
| BIOS/UEFI 设置 |
不在操作系统层面 |
需重启进入固件界面 |
| CPU/GPU 物理频率硬限 |
i5-6200U 最高 2.8GHz 超不了 |
硬件限制不可突破 |
| 内存容量 |
8GB 是物理插槽上限 |
需更换硬件 |
| 当前联网网卡禁用 |
会断开自己的连接 |
有保护机制会拦截/警告 |
六、你的电脑现状 vs 满配状态
当前状态(基础版)
复制代码
小米笔记本 i5-6200U
├── CPU: 2核4线程 @2.3GHz
├── 内存: 8GB DDR
├── 显卡: Intel HD520 + NVIDIA 940MX (1GB)
├── 硬盘: Samsung NVMe SSD 477GB
├── 显示器: 1920×1080 内置屏幕 ×1
├── 网络: Intel AC 8260 WiFi + Bluetooth
├── USB: 小米摄像头(唯一外设)
└── 音频: Realtek HD + 英特尔显示器音频
当前可控范围: 音量、亮度、电源、WiFi、鼠标键盘、窗口、进程、截图/OCR、蓝牙。
体验评级:⭐⭐(能做但没什么好做的)
入门升级(加 ¥30-100 设备)
复制代码
当前 + ESP32 开发板 (¥25)
+ 杜邦线/面包板 (¥10)
+ DHT22 温湿度传感器 (¥15)
+ LED + 舵机 + 继电器 (¥20)
= 总投入约 ¥70
新增能力: 温湿度读取、LED 控制、舵机驱动、继电器开关、OLED 显示、触摸交互。
体验评级:⭐⭐⭐(能操控物理世界了)
中阶升级(加 ¥300-500 设备)
复制代码
入门版 + Arduino Uno (¥40)
+ 超声波传感器 (¥10)
+ LCD1602 显示屏 (¥25)
+ 红外发射模块 (¥8)
+ 3D 打印机或已有打印机串口接入
+ Home Assistant (树莓派/Docker 免费)
= 累计约 ¥150-500
新增能力: 测距、倒车雷达、红外遥控家电、3D 打印控制、全屋米家设备联动。
体验评级:⭐⭐⭐⭐(智能家居雏形)
满配状态(完整工作站)
复制代码
中阶版 + 2K 外接显示器 ×2
+ 扩展坞 (¥200)
+ 机械键盘鼠标
+ 监听音箱 + 音频接口
+ 外置备份硬盘 (¥400)
+ 千兆有线网络
+ 米家全套设备(空调/台灯/扫地机/门锁/插座)
= 累计约 ¥2000-5000+
新增能力: 双屏工作站、专业音频、全自动 RPA 工作流、全屋智能控制中心。
体验评级:⭐⭐⭐⭐⭐(初级贾维斯)
七、快速上手建议
最快的价值感知路径
- 今天就能做: 找一个每天重复的电脑操作告诉我,我帮你自动化
- 本周可做: 花 ¥70 买个 ESP32 + 传感器套件,我带你做出第一个物理交互项目(比如桌面温湿度仪表盘)
- 本月可做: 搭一个 Home Assistant Docker,接入米家设备,实现语音/文字控制全屋
- 长期目标: 把常用流程写成独立 Python 服务 + Windows 计划任务,实现真正的无人值守自动化
手册版本:2026-04-03
适用硬件:小米笔记本 Timi TM1613 (i5-6200U)
技能版本:System Controller v1.0