小智Pro：给小智装上眼睛，无需设备摄像头，MCP实现

前文，分享了【小智Pro】系列文章：

接下来的问题：如何给小智接入眼睛？

设备端必须上摄像头？

很多朋友手头的板子，压根没有摄像头，而换一个带摄像头的板子成本太高。

如何为没有摄像头的板子接入视觉能力？

今日分享，聊聊：小智Pro的具体做法👇：

平台侧：视觉理解的架构设计
用户侧：用户如何接入

1. 视觉理解架构设计

整体采用前后端分离的设计模式，前端负责用户交互和可视化管理，后端提供 API 接口和服务治理，底层通过WebSocket实现实时通信。

复制代码

┌─────────────────────────────────────────────────────────────┐
│                         浏览器端                              │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐          │
│  │ 视觉交互按钮 │  │ 摄像头控制   │  │ 结果展示     │          │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘          │
│         │                │                │                 │
│         └────────────────┴────────────────┘                 │
│                          │                                   │
│                    WebSocket 连接                            │
└──────────────────────────┼───────────────────────────────────┘
                           │
                    wss://domain/ws
                           │
┌──────────────────────────▼───────────────────────────────────┐
│                      MCP 服务端                           │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  应用层                                        │    │
│  │  ├─ WebSocket 路由 (/ws)                            │    │
│  │  │   ├─ 连接管理（维护所有客户端连接）               │    │
│  │  │   ├─ 指令下发（request_camera, capture 等）       │    │
│  │  │   └─ 数据接收（图片上传、状态反馈）               │    │
│  │  │                                                     │    │
│  │  ├─ MCP 工具定义                                     │    │
│  │  │   ├─ camera_capture: 拍照工具                     │    │
│  │  │   ├─ image_analysis: 图像分析工具                 │    │
│  │  │   └─ ...                                          │    │
│  │  │                                                     │    │
│  │  └─ AI 模型调用                                       │    │
│  │      ├─ 调用视觉模型分析图片                          │    │
│  │      └─ 返回分析结果                                  │    │
│  └─────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────┘