System-Controller完整能力手册

System Controller 完整能力手册

基于你电脑的实际硬件(小米笔记本 i5-6200U / 8GB / 940MX / 1080p)和 System Controller 技能的全部能力边界。


一、能力总览

复制代码
用户自然语言指令
       ↓
┌───────────────────────────────────────────┐
│            System Controller              │
│                                           │
│  ┌─────────┐ ┌─────────┐ ┌─────────────┐ │
│  │ 窗口管理 │ │ 进程管理 │ │  硬件控制   │ │
│  └────┬────┘ └────┬────┘ └──────┬──────┘ │
│       └──────────┼───────────────┘        │
│                  ↓                        │
│  ┌─────────────────────────────────────┐ │
│  │         GUI 自动化引擎               │ │
│  │   鼠标 · 键盘 · 截图 · OCR · 视觉    │ │
│  └──────────────┬──────────────────────┘ │
│                 ↓                         │
│  ┌──────────┐ ┌───────────┐ ┌──────────┐ │
│  │ 串口通信  │ │ IoT 控制  │ │ 条件逻辑  │ │
│  └──────────┘ └───────────┘ └──────────┘ │
│                                           │
└───────────────────┬───────────────────────┘
                    ↓
         系统物理动作(硬件/软件/网络)

6 个模块,任意串联,无步骤上限。


二、六大模块详细能力

模块 1:窗口管理器 (window_manager.py)

操作 命令 说明
列出所有窗口 list 获取标题、PID、位置、大小
激活窗口 activate --title "xxx" 调到前台
关闭窗口 close --title "xxx" 关闭指定窗口
最小化 minimize --title "xxx" 收到任务栏
最大化 maximize --title "xxx" 全屏窗口
调整大小 resize --title "xxx" --w 800 --h 600 --x 100 --y 50 自定义尺寸位置
发送按键 send-keys --title "xxx" --keys "ctrl+s" 向目标窗口发键盘输入

模块 2:进程管理器 (process_manager.py)

操作 命令 说明
列出进程 listlist --name chrome PID、内存、CPU 占用
终止进程 kill --name notepadkill --pid 1234 强制结束
启动程序 start "notepad.exe" 运行任意 .exe
进程详情 info --pid 1234 详细资源占用
系统状态 system 整体运行概览

模块 3:硬件控制器 (hardware_controller.py)

音量
操作 命令
获取当前音量 volume get
设置音量 (0-100) volume set --level 50
静音 volume mute
取消静音 volume unmute
屏幕
操作 命令
获取亮度 screen brightness get
设置亮度 (0-100) screen brightness set --level 80
显示器信息 screen info
电源
操作 命令 危险等级
锁屏 power lock 🟢 低
睡眠 power sleep 🟡 中
休眠 power hibernate 🟡 中
关机 power shutdown 🔴 高
重启 power restart 🔴 高
取消关机/重启 power cancel 🟢 低
网络
操作 命令
列出网卡 network list
WiFi 扫描 network wifi
启用/禁用网卡 network enable/disable --adapter "Wi-Fi"
网络信息 network info
USB
操作 命令
列出 USB 设备 usb list

模块 4:串口通信 (serial_comm.py) ⚠️ 需要硬件接入

操作 命令 说明
扫描 COM 口 list 发现所有可用串口
自动检测波特率 detect --port COM3 智能匹配
发送数据 send --port COM3 --data "LED_ON" 写入串口
收发对话 chat --port COM3 --data "GET_TEMP" 发送并等待回复
持续监听 monitor --port COM3 --duration 60 实时打印收到的数据

适用设备:Arduino、ESP32、STM32、3D 打印机、传感器模块、PLC 等。

模块 5:IoT 控制器 (iot_controller.py) ⚠️ 需要配置

Home Assistant
操作 命令
列出设备 homeassistant --url URL --token TOKEN list
查看状态 homeassistant --url URL --token TOKEN get --entity-id light.living_room
打开设备 homeassistant --url URL --token TOKEN on --entity-id light.living_room
关闭设备 homeassistant --url URL --token TOKEN off --entity-id climate.bedroom
切换状态 homeassistant --url URL --token TOKEN toggle --entity-id switch.fan
调用服务 homeassistant --url URL --token TOKEN service --domain light --service turn_on --entity_id light.desk
通用 HTTP API
操作 命令
GET 请求 http --url https://api.example.com get --path /data
POST 请求 http --url https://api.example.com post --path /data --body '{"key":"value"}'
PUT 请求 http --url https://api.example.com put --path /data/1 --body '{"status":"ok"}'

模块 6:GUI 自动化引擎 (gui_controller.py) --- 核心交互层

🖱️ 鼠标操作
操作 命令 说明
移动 mouse move --x 500 --y 300 移到坐标点
左键点击 mouse click --x 500 --y 300 标准点击
右键点击 mouse right-click --x 500 --y 300 上下文菜单
双击 mouse double-click --x 500 --y 300 双击操作
拖拽 mouse drag --start-x 100 --start-y 200 --end-x 500 --end-y 400 按住移动后松开
滚动 mouse scroll --direction down --clicks 10 页面滚动
获取位置 mouse position 当前鼠标在哪
⌨️ 键盘操作
操作 命令 示例
输入文字 keyboard type --text "Hello World" 支持中文
快捷键 keyboard press --keys "ctrl+c" 组合键
按键按下 keyboard key-down --key "shift" 长按开始
按键释放 keyboard key-up --key "shift" 长按结束
📸 截图操作
操作 命令 说明
全屏截图 screenshot full 整个桌面
区域截图 screenshot region --x 0 --y 0 --w 1920 --h 1080 指定矩形区域
当前窗口截图 screenshot active-window 只截活动窗口
屏幕分辨率 screenshot size 返回宽高
列出截图 screenshot list 已保存的截图列表
👁️ 视觉识别
操作 命令 说明
OCR 文字提取 visual ocr 全屏文字识别
区域 OCR visual ocr --x 100 --y 100 --w 800 --h 600 指定区域识别
图像模板查找 visual find --template "button.png" 在屏幕上找图片
找到并点击 visual click-image --template "submit.png" 找到图片位置自动点击
取像素颜色 visual pixel --x 200 --y 200 该点的颜色值

三、复杂度分级

Level 1 --- 单模块简单操作(3-5 步)

场景 操作链 耗时
快速静音开会 音量 mute → 截图确认 ~2s
清理后台程序 列进程 → 过滤非系统 → kill 全部 ~5s
USB 设备检查 usb list → 串口 scan → 报告 ~3s
一键锁屏离开 截图存档 → lock ~1s
WiFi 切换 wifi scan → 连接指定网络 ~4s

Level 2 --- 跨模块协作(5-10 步)

场景 操作链 跨模块数
开发环境启动 启动 VSCode + 终端 + 浏览器 → 排列窗口(左中右) → 亮度调高 → 音量适中 3
演示模式准备 关闭非必要窗口 → 全屏 PPT → 亮度 100% → 静音 → 截屏存档 3
夜间模式 亮度降到 20% → 夜间模式(Win 设置) → 关通知 → 静音 2
文件传输到手机 USB list → 识别手机 → 串口/ADB 发送文件 2-3
智能家居离家 Home Assistant 全关灯 → 关空调 → 锁屏 → ARM 安防系统 2

Level 3 --- 条件判断 + 循环(10-20 步)

场景 操作链 复杂度来源
智能内存清理 查看内存占用 → 列出高内存进程 → 判断哪些可安全关闭 → 逐个 kill → 再次检查确认释放效果 条件分支
自动截屏汇报 截全屏 → OCR 提取文字 → 识别当前在做什么 → 拼接成报告 → 存档 逻辑判断
多窗口工作区恢复 扫描已打开窗口 → 按类型分类(浏览器/IDE/聊天) → 自动排列到预设位置 智能布局
下载完成监控 监控下载文件夹变化 → 循环检测新文件 → 完成后弹窗+音量提醒 文件监控+通知
远程协助录屏 循环截图(每 n 秒) → 压缩打包 → 通过 IoT API 上传服务器 定时任务+API

Level 4 --- 高级自动化(20-50 步)

场景 操作链 复杂度来源
全自动开发部署 Git pull → 编译项目 → 运行测试 → 解析结果 → 成功则启动服务/失败打开日志+发消息 多工具链+错误处理
桌面整理机器人 截屏 → OCR 识别每个图标 → 按类别归类(文档/图片/安装包) → 创建文件夹 → 拖拽移动 → 清空回收站 视觉识别+大量 GUI
智能家居场景联动 检测时间→日落开灯→检测温度→>28°C 开空调→检测门窗未关推送警告→写入日志 多传感器+多设备+条件链
RPA 表单自动填写 打开网页 → OCR 读字段名 → 从数据源取值 → 逐字段填入 → 提交 → 验证结果 → 下一页重复 循环+验证+容错
屏幕内容监控告警 每 30 秒截图 → 与上一帧对比 → 差异超阈值 → OCR 识别变化内容 → 通过 HTTP 推送到手机 图像差分+API 推送

Level 5 --- 极限复杂(50+ 步,需脚本编排)

场景 说明
无人值守工作站 定时唤醒 → 检查邮件/消息 → 自动回复常规问题 → 备份数据 → 整理磁盘 → 发送日报 → 待机。全程无需人工干预
多应用 RPA 流程 从 A 系统导出数据 → 格式化处理 → 导入 B 系统 → 校验 → 出错回滚报警 → 生成审计报告
游戏辅助挂机 截图 → 图像识别游戏界面 → 根据状态决策(战斗/采集/交易) → 循环执行 → 异常检测 → 自动退出
智能会议助手 会议前:开设备+调音量亮度+打开会议软件+共享屏幕;会议中:录音+记录动作;会后:生成纪要+发送参会人

四、五大应用场景

场景一:全屋智能中枢

所需设备:

复制代码
笔记本 ──┬── WiFi ──→ 小米空调 / 米家台灯 / 扫地机器人
         ├── 蓝牙 ──→ 智能门锁
         ├── USB  ──→ Arduino 主控板
         │              ├── DHT22 温湿度传感器
         │              ├── 继电器模块 → 灯具电源
         │              ├── 舵机 → 窗帘轨道
         │              └── 红外发射器 → 电视/风扇
         └── HTTP API → Home Assistant 服务器
                        └── 智能插座(鱼缸加热棒等)

一句话指令集:

你说 自动执行的操作序列
"我到家了" 开灯 → 开空调 26°C → 解除安防 → 拉窗帘 → 播报"欢迎回家,室温 XX 度"
"我要睡了" 全屋灯光渐暗 → 关电视 → 空调睡眠模式 27°C → 启动安防 → 门锁上锁
"太热了" 读温湿度传感器 → 若 >28°C 开空调 24°C → 关窗帘挡阳 → 检查鱼缸加热棒 → 提醒补水
"出门模式" 关所有灯和电器 → 开启扫地机器人 → 空调关闭 → 门锁布防 → 手机推送确认
"看电影" 灯光 15% → 窗帘全关 → TV 开启 → 音量 40% → 笔记本 HDMI 输出画面

场景二:桌面工作站自动化

所需配置:

复制代码
笔记本 ── 扩展坞 ──┬── 2K 外接显示器 ×2
                  ├── 机械键盘 + 鼠标
                  ├── USB 音频接口 → 监听音箱
                  ├── 千兆网线
                  └── 外置硬盘阵列(备份盘)

工作流快捷指令:

你说 自动执行
"开始工作" 双屏排列(左代码右文档)→ 打开 VS Code + Chrome + 终端 → 加载项目 → 音乐播放 → 音量 30%
"开会了" 静音 → 截屏保存工作状态 → 打开 Zoom/腾讯会议 → 共享屏幕 → 开摄像头
"代码写完了" Git commit + push → 运行测试 → 通过后群消息通知团队 → 备份代码到外置硬盘
"我要专注" 关闭非 IDE 窗口 → 屏幕亮度 80% → 断 WiFi(保留有线网)→ 每 45 分钟弹窗提醒休息
"收工了" 所有窗口截图存档 → 关 IDE/浏览器 → 今日变更摘要 → 同步云盘 → 锁屏

场景三:创客实验室

接入硬件:

复制代码
USB ──┬── Arduino Uno ──┬── 超声波测距(倒车雷达)
      │                ├── LCD1602 显示屏
      │                └── 蜂鸣器报警
      │
      ├── ESP32 DevKit ──┬── OLED 显示(天气/时间)
      │                 └── 触摸按钮面板
      │
      └── 3D 打印机(串口 G-code 通信)

创意玩法:

你说 效果
"开始打印这个模型" 切片软件加载 STL → 生成 G-code → 串口发送给打印机 → 实时监控温度/进度 → 完成蜂鸣提示+手机推送
"做个倒车雷达演示" Arduino 进入 PARKING 模式 → 循环测距 → <20cm 蜂鸣加速 → LCD 显示距离 → 电脑同步可视化波形
"做个智能时钟" ESP32 获取成都天气时间 → OLED 刷新显示 → >30°C 闪烁红色警告 → 触摸切换显示模式
"记录一周室温变化" 每小时读一次温度 → 写入 CSV → 一周后自动生成折线图 → 异常波动邮件提醒

场景四:RPA 数字员工

替代日常重复劳动:

场景 操作流程 节省时间
每日财务报表 打开网银 → 登录 → 导出交易记录 → 格式化 Excel → 分类统计 → 生成月报 → 发邮件 每天 30 分钟 → 全自动
电商订单处理 刷新后台 → 筛选新订单 → 复制地址 → 填快递单号 → 标记发货 → 回复买家 每单 3 分钟 → 批量处理
数据采集爬虫 打开目标网站 → 搜索关键词 → 翻页采集 → OCR 提取表格数据 → 存数据库 → 下一页 手动 2h → 后台跑完通知
批量文件整理 扫描下载文件夹 → 按类型分类(PDF/图片/安装包/文档) → 重命名加日期 → 归档目录 → 清空回收站 每周 1h → 一键搞定
抢名额/抢票 提前打开页面 → 填好信息 → 到点自动刷新提交 → 成功弹窗+声音提示 → 失败重试 手速不够 → 毫秒级响应

场景五:游戏辅助

⚠️ 仅展示技术能力,实际使用需遵守各平台规则

操作 技术原理
自动挂机打金 截图识别界面 → 判断角色状态 → 决策移动/攻击/拾取 → 循环执行 → 异常掉线重连
自动钓鱼/种田 定时点击特定坐标 → 识别收获提示 → 重复操作
小地图解析 截取小地图 → 图像分析 → overlay 显示敌人方位/资源点

五、能力边界

✅ 能做到的

  • 任何可见的 GUI 操作(屏幕上能看到就能点击/输入/拖拽)
  • 任何有窗口的程序的生命周期控制和外观调整
  • 任何系统硬件设置(音量、亮度、电源、网络、USB)
  • 任何支持 API 的设备(通过 HTTP/串口接入)
  • 任意长度的操作序列(Python 脚本无步骤上限)
  • 多模块自由组合(窗口+GUI+硬件+IoT 一起上)

❌ 做不到的(或很勉强)

限制 原因 替代方案
无法绕过 CAPTCHA 验证码需人工介入 第三方打码平台 API
无法对抗反自动化 游戏反作弊、银行 U 盘等硬件级保护 无解
OCR 准确率有限 复杂排版/手写体/低分辨率下出错 装 Tesseract + 中文语言包可提升
图像模板依赖 UI 稳定性 UI 变化后旧模板失效 需重新截图更新模板
无持久化记忆 每次从零开始不记住上次状态 配合 MEMORY.md 或外部数据库
操作速度受限 GUI 操作是实时的无法并行加速 可多线程但受限于物理屏幕
BIOS/UEFI 设置 不在操作系统层面 需重启进入固件界面
CPU/GPU 物理频率硬限 i5-6200U 最高 2.8GHz 超不了 硬件限制不可突破
内存容量 8GB 是物理插槽上限 需更换硬件
当前联网网卡禁用 会断开自己的连接 有保护机制会拦截/警告

六、你的电脑现状 vs 满配状态

当前状态(基础版)

复制代码
小米笔记本 i5-6200U
├── CPU: 2核4线程 @2.3GHz
├── 内存: 8GB DDR
├── 显卡: Intel HD520 + NVIDIA 940MX (1GB)
├── 硬盘: Samsung NVMe SSD 477GB
├── 显示器: 1920×1080 内置屏幕 ×1
├── 网络: Intel AC 8260 WiFi + Bluetooth
├── USB: 小米摄像头(唯一外设)
└── 音频: Realtek HD + 英特尔显示器音频

当前可控范围: 音量、亮度、电源、WiFi、鼠标键盘、窗口、进程、截图/OCR、蓝牙。

体验评级:⭐⭐(能做但没什么好做的)

入门升级(加 ¥30-100 设备)

复制代码
当前 + ESP32 开发板 (¥25)
      + 杜邦线/面包板 (¥10)
      + DHT22 温湿度传感器 (¥15)
      + LED + 舵机 + 继电器 (¥20)
      = 总投入约 ¥70

新增能力: 温湿度读取、LED 控制、舵机驱动、继电器开关、OLED 显示、触摸交互。

体验评级:⭐⭐⭐(能操控物理世界了)

中阶升级(加 ¥300-500 设备)

复制代码
入门版 + Arduino Uno (¥40)
     + 超声波传感器 (¥10)
     + LCD1602 显示屏 (¥25)
     + 红外发射模块 (¥8)
     + 3D 打印机或已有打印机串口接入
     + Home Assistant (树莓派/Docker 免费)
     = 累计约 ¥150-500

新增能力: 测距、倒车雷达、红外遥控家电、3D 打印控制、全屋米家设备联动。

体验评级:⭐⭐⭐⭐(智能家居雏形)

满配状态(完整工作站)

复制代码
中阶版 + 2K 外接显示器 ×2
     + 扩展坞 (¥200)
     + 机械键盘鼠标
     + 监听音箱 + 音频接口
     + 外置备份硬盘 (¥400)
     + 千兆有线网络
     + 米家全套设备(空调/台灯/扫地机/门锁/插座)
     = 累计约 ¥2000-5000+

新增能力: 双屏工作站、专业音频、全自动 RPA 工作流、全屋智能控制中心。

体验评级:⭐⭐⭐⭐⭐(初级贾维斯)


七、快速上手建议

最快的价值感知路径

  1. 今天就能做: 找一个每天重复的电脑操作告诉我,我帮你自动化
  2. 本周可做: 花 ¥70 买个 ESP32 + 传感器套件,我带你做出第一个物理交互项目(比如桌面温湿度仪表盘)
  3. 本月可做: 搭一个 Home Assistant Docker,接入米家设备,实现语音/文字控制全屋
  4. 长期目标: 把常用流程写成独立 Python 服务 + Windows 计划任务,实现真正的无人值守自动化

手册版本:2026-04-03
适用硬件:小米笔记本 Timi TM1613 (i5-6200U)
技能版本:System Controller v1.0

相关推荐
DeepModel2 小时前
机器学习降维核心:奇异值分解 SVD
人工智能·python·机器学习
十铭忘2 小时前
认知循环架构与现有智能体:区别和联系
人工智能·架构
tang777892 小时前
OpenClaw数据采集实战:隧道代理实测测评
大数据·人工智能·爬虫·网络协议·tcp/ip·数据挖掘·opencllaw
蚂蚁数据AntData2 小时前
DB-GPT V0.8.0 版本更新|范式跃迁:AI + Data 驱动的数据分析交互体验升级
大数据·数据库·人工智能·数据分析·开源
Agent产品评测局2 小时前
能源行业自动化解决方案选型,安全与降本双提升:2026企业级智能体选型指南
运维·人工智能·安全·ai·chatgpt·自动化
杜子不疼.2 小时前
Spring Cloud + AI:微服务架构下的智能路由、故障自愈、日志分析
人工智能·spring cloud·架构
知识靠谱2 小时前
【大模型智能体应用】Claude Code 的上下文记忆管理系统架构解析:7层渐进式设计的工程思考
人工智能
Codigger官方2 小时前
从一维到无限:Phoenix 语言如何用“矩阵思维”重塑 AI 时代的算力逻辑
人工智能·线性代数·矩阵
淬炼之火2 小时前
笔记:LoRA,一种针对大语言模型的参数高效微调方法
人工智能·笔记·语言模型