前文,分享了【小智Pro】系列文章:
小智Pro:在线点歌+歌词同步,支持打断和搜索,端云协同方案
远程控制+文字唤醒,小智Pro开放API调用,释放小智无限潜力
零门槛为小智接入MCP,小智Pro焕新上线:MCP广场+自定义服务
接下来的问题:如何给小智接入眼睛?
设备端必须上摄像头?
很多朋友手头的板子,压根没有摄像头,而换一个带摄像头的板子成本太高。
如何为没有摄像头的板子接入视觉能力?
今日分享,聊聊:小智Pro的具体做法👇:
- 平台侧:
视觉理解的架构设计 - 用户侧:用户如何接入

1. 视觉理解架构设计
整体采用前后端分离的设计模式,前端负责用户交互和可视化管理,后端提供 API 接口和服务治理,底层通过WebSocket实现实时通信。
┌─────────────────────────────────────────────────────────────┐
│ 浏览器端 │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 视觉交互按钮 │ │ 摄像头控制 │ │ 结果展示 │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ └────────────────┴────────────────┘ │
│ │ │
│ WebSocket 连接 │
└──────────────────────────┼───────────────────────────────────┘
│
wss://domain/ws
│
┌──────────────────────────▼───────────────────────────────────┐
│ MCP 服务端 │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 应用层 │ │
│ │ ├─ WebSocket 路由 (/ws) │ │
│ │ │ ├─ 连接管理(维护所有客户端连接) │ │
│ │ │ ├─ 指令下发(request_camera, capture 等) │ │
│ │ │ └─ 数据接收(图片上传、状态反馈) │ │
│ │ │ │ │
│ │ ├─ MCP 工具定义 │ │
│ │ │ ├─ camera_capture: 拍照工具 │ │
│ │ │ ├─ image_analysis: 图像分析工具 │ │
│ │ │ └─ ... │ │
│ │ │ │ │
│ │ └─ AI 模型调用 │ │
│ │ ├─ 调用视觉模型分析图片 │ │
│ │ └─ 返回分析结果 │ │
│ └─────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
服务连接成功后,用户授权浏览器开启摄像头:

设备端发起调用摄像头请求,服务端拿到图片进行解析并返回给设备端,调用成功示例:

2. 视觉理解核心功能
对于用户而言,只需两步:
-
- 浏览器中
小智Pro控制台打开摄像头;
- 浏览器中
-
- 然后,你可以对小智说:
- '帮我看看这是哪里'
- '帮我看看这道题怎么做'
对话过程中,设备端通过 MCP 调用远程摄像头获取图片,并通过视觉大模型获取图片内容理解。
如果成功调用,屏幕or日志中会看到self.vision.analysis工具调用。

写在最后
本文分享了小智Pro 接入视觉理解的实现方案。
如果对你有帮助,不妨点赞收藏备用。
欢迎体验 小智Pro 更多功能,请戳👇:
注:视觉理解能力需设备端固件v2.2.1.1版支持。
目前已全面适配小智官方仓库收录的开发板型号,下载地址:

有任何问题,欢迎进群交流。