一、 ESP-Claw 介绍
ESP-Claw 是乐鑫(Espressif)推出的面向 IoT 设备的 Chat Coding 型 AI 智能体(Agent)框架,核心运行在 ESP32 系列芯片上,旨在将传统被动执行指令的 IoT 设备,转变为具备本地感知、决策、执行能力的主动智能体。
官方网址:https://esp-claw.com/zh-cn
1、ESP-Claw vs 传统 IoT
|----------|---------------------------|----------------------------|
| 维度 | 传统 IoT(云中心化) | ESP-Claw(边缘 AI) |
| 处理逻辑 | 预设静态规则(If-This-Then-That) | LLM 动态决策 + Lua 确定性规则 |
| 执行引擎 | 规则引擎 | LLM + Lua + Router(三级事件处理) |
| 控制中心 | 云端服务器 | 边缘节点(ESP 芯片) |
| 设备协议 | MQTT / Matter / 私有 SDK | MCP 统一语言 + 多协议桥接 |
| 记忆管理 | 云端数据存储 | 本地结构化记忆(JSONL + 标签) |
| 交互方式 | App / 控制面板 | IM(Telegram / 微信 / 飞书) |
| 智能能力 | 预设自动化 | LLM + 本地规则(持续进化) |
2、 核心特性
该框架受 OpenClaw 概念启发,基于 C 语言重新实现,具备轻量级、智能化、可扩展的特性。仅需几美元的 ESP32 芯片,即可部署该框架,让普通 IoT 设备拥有智能体运行时(Agent Runtime),成为本地决策中心,而非单纯的云端指令执行者。
|--------------|-------------------------------------------|
| 特性 | 描述 |
| 💬 以对话创建设备行为 | 结合即时通讯(IM)聊天 + 动态 Lua 加载,普通用户无需编程即可定义设备行为 |
| 🚀 毫秒级响应 | 事件驱动架构,任意事件可触发 Agent 循环,响应速度可达毫秒级 |
| 🧬 结构化内存 | 本地结构化管理设备 "记忆",数据隐私无需上云 |
| 📤 MCP 通信 | 支持标准 MCP 设备,可同时作为 Server/Client 运行 |
区别于传统 IoT 仅聚焦 "联网" 和 "执行指令" 的局限,ESP-Claw 核心价值在于:
- 从被动到主动:将 Agent 运行时下沉到芯片端,设备从 "指令执行者" 变为 "本地决策中心";
- 低门槛使用:无需专业编程能力,通过聊天即可定义设备行为;
- 高性能响应:事件驱动的 Agent 循环,保障毫秒级的本地响应速度;
- 隐私与兼容:本地结构化内存保障数据隐私,MCP 协议兼容生态丰富。
3、 仓库结构(核心目录)
docs/:文档相关资源(含官网、教程、构建指南等);components/:核心组件(claw_capabilities/ 能力定义、claw_modules/ 模块、common/ 通用逻辑、lua_modules/ Lua 模块);application/:应用层代码(含 edge_agent/ 边缘智能体核心逻辑);- 根目录:许可证、版本日志、CI 配置等工程化文件。
二、ESP-Claw 硬件
1、 主要物料
- 开发板
ESP32-S3 具有多种子型号,例如 N8R8、N4R2 等等。N8 表示具有 8 MB 的 Flash,R2 表示具有 2 MB 的 PSRAM。 运行 ESP-Claw 需要 至少 8 MB Flash 和 8 MB PSRAM 的 ESP32-S3。

推荐使用乐鑫官方推出的 ESP32-S3-DevKitC-1 开发板。官方开发板引出的引脚数量较多,适合用于面包板组装。 你可以在乐鑫官方网店购买。
- 屏幕
ESP-Claw 支持接入屏幕扩展显示能力。在线烧录的固件支持一块 ST7789 SPI 彩屏,你可以在下方链接购买到同款屏幕。
请选择:2.0寸-8针蓝板模块、焊针
如果不选择这块屏幕,你可能需要自行完成软件适配。
2、 组装 ESP-Claw

- 将 ESP32-S3-DevKitC-1 开发板安装到面包板上
将 ESP32-S3-DevKitC-1 开发板安装到其中一块面包板的中央,左右各留出一列空位,便于后续接入其他扩展外设。
- 接入屏幕(可选)
可按上图所示接入屏幕,注意屏幕的供电需接入 3V3 供电引脚。
- 接入 USB 摄像头(可选)
ESP32-S3 的 GPIO20、GPIO19 分别对应 USB 的 D+、D- 引脚。USB 摄像头还需要供电引脚,可从 ESP32-S3 的 5V 引脚引出。
乐鑫官方淘宝店提供的 USB 摄像头样品,靠近 USB 接口一侧的 2pin 接口可连接喇叭,另一侧的 2pin 接口可连接咪头。
- 接入 WS2812 灯带/灯环(可选)
WS2812 灯带/灯环需要供电引脚,可从 ESP32-S3 的 5V 引脚引出。DATA IN 引脚需要连接到 ESP32-S3 的 GPIO14 引脚。
- 接入舵机(可选)
舵机需要 5V 供电,可从 ESP32-S3 的 5V 引脚引出。舵机的 PWM 信号引脚需要连接至 ESP32-S3 的 GPIO47 引脚。
3、在线烧录
ESP-Claw 需要至少 8 MB Flash 和 8 MB PSRAM,目前支持 ESP32-S3、ESP32-P4。
在烧录之前,你还需要准备一台电脑,并安装 Chrome 或 Edge 浏览器。在线烧录暂时无法使用 Firefox 浏览器完成。
- 使用数据线连接开发板
使用数据线将开发板连接到 PC。如果你使用面包板形态的 ESP-Claw,请使用标记有 UART 的 USB 口连接。
启动在线烧录工具并连接串口,首先开发板串口要有驱动程序,设备管理器中能识别 USB 串口。

- 在线烧录
在线烧录打开在线烧录工具,为 ESP32 烧录 ESP-Claw
打开在线烧录工具,点击「连接」,连接到开发板。

开始烧录固件:

配置 IP:


- 配置参数
- 配置 LLM:可选 GPT (OpenAI), Qwen (阿里云百炼), Claude (Anthropic), DeepSeek (DeepSeek API),请按提示生成 API Key 并填入。

请选择推理能力较强的模型
ESP-Claw 的自编程、复杂工具组合等功能依赖强推理模型的能力。 推荐选用 GPT-5.4、Qwen3.6-plus、Claude4.6-sonnet、DeepSeek v4 Pro 或类似性能的模型以取得最佳体验。
- 配置需要连接到的聊天软件:目前支持 Telegram、QQ Bot(OpenClaw)、飞书与微信 ClawBot 等,可同时填写多个。
|------------|-----------------|--------------------------------------------------------------------------------------|
| 聊天软件 | 配置项 | 帮助文档 |
| Telegram | Bot Token | Telegram Bot 文档 |
| QQ Bot | ID 和 Secret | QQ Bot 网站 |
| 飞书 | App ID 和 Secret | 飞书文档 |
| 微信 ClawBot | 微信扫码自动配置 | N/A |
- 配置搜索引擎
提示
配置搜索引擎后,ESP-Claw 才能通过网络检索获取最新信息。查询天气也依赖搜索引擎支持。推荐配置 Tavily,有一定的免费额度。
打开 Tavily Dashboard,注册账号并登录,复制一个 API Key 并填入网页烧录工具的「Tavily」输入框。
注意
如输入了错误的 Wi-Fi SSID 或密码,ESP-Claw 可能无法联网。此时,可以连接 ESP-Claw 提供的 SoftAP 网络,检查并修改配置。➡️Web 配置
三、 Chat Coding
1、Web 配置界面
带屏设备可以通过屏幕状态判断是否已连接到 Wi-Fi。无屏设备需要通过串口 Console 或 Web 配置页面的装显示判断是否已连接到 Wi-Fi。
esp32_S3_DevKitC_1 开发板是没有屏幕的,所以烧录官方固件,ST7789 扩展屏幕是没有点亮与显示内容的。

开发板主要通 Web 端与聊天软件与 ESP-Claw 沟通。推荐使用 Telegram / QQ Bot / 微信 ClawBot 与 ESP-Claw 交互。
2、微信 ClawBot 交互
下面使用微信 ClawBot 与 ESP-Claw 交互,进行 ESP32 的 chat coding 开发。
硬件上主要是 2.0寸TFT液晶ST7789 240x320 SPI彩屏,DHT11 温湿度传感器,WS2812 灯。

实现的功能是让ESP-Claw 驱动 DHT11,ST7789,在屏幕上实时显示当前时间、温湿度、实时天气(武汉),显示内容常驻显示。
首先测试让它驱动屏幕,在 ST7789 上显示内容。要告知ESP-Claw 你使用的硬件型号与引脚接线。

接着让ESP-Claw 读取 DHT11 数据,它说传感器没有响应让我排查。我使用另一块开发板使用 arduino 读取没有问题,就告知它,不一会数据就读出来了。(看来 Agent 做硬件开发都有问题,以前在树莓派 4 上使用 openClaw 驱动 DHT11 也有这个问题)

3、Chat Coding效果
最终的功能实现要求"在屏幕上显示实时的温湿度数据和当前时间,以及武汉今天的天气,屏幕要求采用常驻模式。"中间出现了一些 bug,让它调整一下就行。
最终效果如下所示,功能都实现了。不用你写一行 ESP32 的代码,不需要开发环境,只要求你完整的描述功能需求,通过聊天完成硬件功能开发。大约 10 分种,deepseek 花费 1 块钱的 Tokens。
