小智Pro:给小智装上眼睛,无需设备摄像头,MCP实现

前文,分享了【小智Pro】系列文章:

小智Pro:智能闹钟提醒 + 云端同步,端云协同方案

小智Pro:在线点歌+歌词同步,支持打断和搜索,端云协同方案

小智Pro:给小智装上"知识外挂",从此告别一问三不知

远程控制+文字唤醒,小智Pro开放API调用,释放小智无限潜力

零门槛为小智接入MCP,小智Pro焕新上线:MCP广场+自定义服务

小智Pro:接入长期记忆,一个更懂你、有灵魂的小智

接下来的问题:如何给小智接入眼睛

设备端必须上摄像头?

很多朋友手头的板子,压根没有摄像头,而换一个带摄像头的板子成本太高。

如何为没有摄像头的板子接入视觉能力?

今日分享,聊聊:小智Pro的具体做法👇:

  • 平台侧:视觉理解的架构设计
  • 用户侧:用户如何接入

1. 视觉理解架构设计

整体采用前后端分离的设计模式,前端负责用户交互和可视化管理,后端提供 API 接口和服务治理,底层通过WebSocket实现实时通信。

复制代码
┌─────────────────────────────────────────────────────────────┐
│                         浏览器端                              │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐          │
│  │ 视觉交互按钮 │  │ 摄像头控制   │  │ 结果展示     │          │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘          │
│         │                │                │                 │
│         └────────────────┴────────────────┘                 │
│                          │                                   │
│                    WebSocket 连接                            │
└──────────────────────────┼───────────────────────────────────┘
                           │
                    wss://domain/ws
                           │
┌──────────────────────────▼───────────────────────────────────┐
│                      MCP 服务端                           │
│  ┌─────────────────────────────────────────────────────┐    │
│  │  应用层                                        │    │
│  │  ├─ WebSocket 路由 (/ws)                            │    │
│  │  │   ├─ 连接管理(维护所有客户端连接)               │    │
│  │  │   ├─ 指令下发(request_camera, capture 等)       │    │
│  │  │   └─ 数据接收(图片上传、状态反馈)               │    │
│  │  │                                                     │    │
│  │  ├─ MCP 工具定义                                     │    │
│  │  │   ├─ camera_capture: 拍照工具                     │    │
│  │  │   ├─ image_analysis: 图像分析工具                 │    │
│  │  │   └─ ...                                          │    │
│  │  │                                                     │    │
│  │  └─ AI 模型调用                                       │    │
│  │      ├─ 调用视觉模型分析图片                          │    │
│  │      └─ 返回分析结果                                  │    │
│  └─────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────┘

服务连接成功后,用户授权浏览器开启摄像头

设备端发起调用摄像头请求,服务端拿到图片进行解析并返回给设备端,调用成功示例:

2. 视觉理解核心功能

对于用户而言,只需两步:

    1. 浏览器中小智Pro控制台打开摄像头;
    1. 然后,你可以对小智说:
    • '帮我看看这是哪里'
    • '帮我看看这道题怎么做'

对话过程中,设备端通过 MCP 调用远程摄像头获取图片,并通过视觉大模型获取图片内容理解。

如果成功调用,屏幕or日志中会看到self.vision.analysis工具调用。

写在最后

本文分享了小智Pro 接入视觉理解的实现方案。

如果对你有帮助,不妨点赞收藏备用。

欢迎体验 小智Pro 更多功能,请戳👇:

https://mkwyqeoebedx.sealosbja.site

注:视觉理解能力需设备端固件v2.2.1.1版支持。

目前已全面适配小智官方仓库收录的开发板型号,下载地址:

https://github.com/hougeai/xiaozhiPro/releases

有任何问题,欢迎进群交流。

相关推荐
见行AGV机器人17 分钟前
无人机脉动线中的AGV小车
人工智能·无人机·agv·非标定制agv
廋到被风吹走19 分钟前
【AI】从 OpenAI Codex 到 GitHub Copilot:AI 编程助手的技术演进脉络
人工智能·github·copilot
newsxun38 分钟前
DHA之后,大脑营养进入GPC时代?
人工智能
程序员Better39 分钟前
2026年AI大模型选择指南:8大主流模型深度对比,小白秒懂如何选!
人工智能
ai_xiaogui1 小时前
AIStarter新版后端原型图详解:架构全面升级+共享环境一键部署,本地AI模型插件工作流管理新时代来临(2026开发者必看)
人工智能·架构·推动开源ai落地·原型图细节·aistarter新版·aistarter新版原型图·架构全面升级+共享环境一键部署
2501_926978331 小时前
“LLM的智能本质--AGI的可能路径--人类的意识本质”三者的统一基底(5.0理论解读)
人工智能·经验分享·笔记·深度学习·机器学习·ai写作·agi
拾光向日葵1 小时前
2026贵州高职专科报考全问答合集:专业、就业与实力大盘点
大数据·人工智能·物联网
لا معنى له1 小时前
WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型
人工智能·笔记·学习
uzong1 小时前
AI Agent 是什么,如何理解它,未来挑战和思考
人工智能·后端·架构
2401_895521341 小时前
spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter
java·人工智能·spring