四博 AI 双目智能音箱方案升级：四路触控、姿态感应、震动反馈、语音克隆和专属知识库全融合

AI 音箱正在从"语音问答设备"升级为"多模态陪伴终端"。

以前的智能音箱主要是：

复制代码

用户说话 → 云端识别 → 大模型回答 → 喇叭播放

但现在用户需要的不只是"能回答"，而是设备能够真正参与交互：

复制代码

摸一下，它有反应；
摇一下，它能感知；
说一句，它能理解；
回答时，它有表情；
陪伴时，它有声音、有动作、有触感。

四博 AI 双目方案正是基于这个方向设计的。它在 AI 智能音箱基础上，进一步加入双目光屏、四路触控、震动马达、三轴姿态传感器、小程序、语音克隆和专属知识库能力，让普通 AI 音箱升级成更有互动感的 AI 桌面陪伴设备。

1. 方案核心配置

四博 AI 双目可以理解为：

复制代码

ESP32-S3 主控
+ 0.71 / 1.28 寸双目光屏
+ 四路触控感应
+ 震动马达
+ 三轴姿态传感器
+ I2S 麦克风
+ 喇叭功放
+ Wi-Fi / 4G 扩展
+ 四博小助手小程序
+ 语音克隆
+ 专属知识库

相比普通 AI 音箱，它多了三类关键能力：

复制代码

1. 表达能力：双目屏显示表情和状态
2. 感知能力：触摸、姿态、摇晃、倾斜识别
3. 个性化能力：语音克隆、知识库、智能体配置

也就是说，它不只是能"听"和"说"，还可以"看起来有情绪""摸起来有反馈""拿起来有互动"。

2. 产品形态可以怎么做？

这套方案可以延展为多种产品：

复制代码

AI 双目智能音箱
AI 桌面宠物
AI 儿童陪伴机器人
AI 早教机
AI 学习机
AI 台灯
AI 拍学机
AI 礼品玩具
AI 客服讲解终端

其中最适合推广的形态是"AI 双目智能音箱 + 桌面陪伴机器人"。

外观可以这样设计：

复制代码

正面：两块双目光屏，用于显示眼睛动画
顶部：触摸区域，用于唤醒、安抚、交互
内部：ESP32-S3 主控 + 三轴传感器 + 音频链路
底部：震动马达 + 喇叭腔体
侧面：Type-C、电源键、下载调试口
扩展：摄像头、舵机、电池、4G 模块

3. 四路触控交互设计

四路触控的价值在于让设备不只依赖语音，也能通过触摸完成自然交互。

可以定义为：

复制代码

Touch 1：头部触摸，唤醒 / 安抚 / 暂停
Touch 2：左侧触摸，上一条 / 左切换
Touch 3：右侧触摸，下一条 / 右切换
Touch 4：底部触摸，模式切换 / 配网 / 设置

对应的产品交互：

复制代码

摸头：设备说"我在呢"
双击：切换故事或音乐
长按：进入配网模式
左触摸：上一条内容
右触摸：下一条内容
底部触摸：切换学习、陪伴、音箱模式

设备端可以做成事件模型：

复制代码

typedef enum {
    AI_EVT_NONE = 0,
    AI_EVT_TOUCH_HEAD,
    AI_EVT_TOUCH_LEFT,
    AI_EVT_TOUCH_RIGHT,
    AI_EVT_TOUCH_BASE,
    AI_EVT_WAKEUP,
    AI_EVT_CLOUD_REPLY,
    AI_EVT_GESTURE_SHAKE,
    AI_EVT_GESTURE_FLIP,
} ai_event_t;

触摸头部时，可以同时触发表情、震动和语音：

复制代码

void handle_touch_head(void)
{
    eye_set_state(EYE_SMILE);
    vibration_play(VIB_SHORT);
    audio_play_local_prompt("我在呢，有什么想和我说的吗？");
}

这类交互比单纯语音更自然，尤其适合儿童陪伴、桌面宠物和早教设备。

4. 震动马达增强反馈感

震动马达的作用是让用户知道设备"收到了指令"。

可以定义几种震动模式：

复制代码

短震：触摸确认
双短震：唤醒成功
长震：进入配网
弱震：消息提醒
节奏震动：故事、音乐、情绪互动

代码示例：

复制代码

#define VIB_GPIO 40

typedef enum {
    VIB_SHORT = 0,
    VIB_DOUBLE,
    VIB_LONG,
} vib_mode_t;

void vibration_init(void)
{
    gpio_config_t cfg = {
        .pin_bit_mask = 1ULL << VIB_GPIO,
        .mode = GPIO_MODE_OUTPUT,
        .pull_up_en = GPIO_PULLUP_DISABLE,
        .pull_down_en = GPIO_PULLDOWN_DISABLE,
        .intr_type = GPIO_INTR_DISABLE,
    };

    gpio_config(&cfg);
    gpio_set_level(VIB_GPIO, 0);
}

static void vibration_pulse(uint32_t ms)
{
    gpio_set_level(VIB_GPIO, 1);
    vTaskDelay(pdMS_TO_TICKS(ms));
    gpio_set_level(VIB_GPIO, 0);
}

void vibration_play(vib_mode_t mode)
{
    switch (mode) {
    case VIB_SHORT:
        vibration_pulse(120);
        break;

    case VIB_DOUBLE:
        vibration_pulse(80);
        vTaskDelay(pdMS_TO_TICKS(100));
        vibration_pulse(80);
        break;

    case VIB_LONG:
        vibration_pulse(500);
        break;

    default:
        break;
    }
}

5. 三轴姿态感应：让设备"知道自己被拿起来了"

内置三轴高精度传感器后，AI 双目音箱可以识别更多动作：

复制代码

拿起设备：自动唤醒
摇一摇：切换故事 / 换一个角色
左倾：上一条内容
右倾：下一条内容
倒放：进入睡眠
轻敲：进入陪伴互动

姿态识别逻辑可以先做简单阈值判断：

复制代码

typedef enum {
    GESTURE_NONE = 0,
    GESTURE_SHAKE,
    GESTURE_LEFT,
    GESTURE_RIGHT,
    GESTURE_FLIP,
    GESTURE_PICKUP,
} gesture_t;

gesture_t gesture_detect(float ax, float ay, float az)
{
    if (fabsf(ax) > 1.8f || fabsf(ay) > 1.8f || fabsf(az) > 2.2f) {
        return GESTURE_SHAKE;
    }

    if (ax > 0.75f) {
        return GESTURE_RIGHT;
    }

    if (ax < -0.75f) {
        return GESTURE_LEFT;
    }

    if (az < -0.65f) {
        return GESTURE_FLIP;
    }

    if (fabsf(az) < 0.4f && (fabsf(ax) > 0.3f || fabsf(ay) > 0.3f)) {
        return GESTURE_PICKUP;
    }

    return GESTURE_NONE;
}

事件处理：

复制代码

void handle_gesture_event(gesture_t g)
{
    switch (g) {
    case GESTURE_SHAKE:
        eye_set_state(EYE_SURPRISE);
        vibration_play(VIB_DOUBLE);
        audio_play_local_prompt("换一个故事吧！");
        break;

    case GESTURE_LEFT:
        audio_prev();
        break;

    case GESTURE_RIGHT:
        audio_next();
        break;

    case GESTURE_FLIP:
        eye_set_state(EYE_SLEEP);
        audio_play_local_prompt("我先休息啦。");
        break;

    case GESTURE_PICKUP:
        eye_set_state(EYE_WAKEUP);
        vibration_play(VIB_SHORT);
        break;

    default:
        break;
    }
}

这种设计可以让设备有"被拿起、被摇动、被翻转"的交互感。

6. 双目光屏：让 AI 音箱有状态、有表情

双目屏是四博 AI 双目方案最直观的卖点。

设备状态可以这样映射：

复制代码

待机：缓慢眨眼
唤醒：眼睛放大
聆听：眼睛轻微跳动
思考：眼睛转动或上看
回答：眼睛跟随音频律动
开心：笑眼
惊讶：放大眼睛
休眠：闭眼
错误：疑惑表情

代码接口可以抽象为：

复制代码

typedef enum {
    EYE_IDLE = 0,
    EYE_WAKEUP,
    EYE_LISTENING,
    EYE_THINKING,
    EYE_TALKING,
    EYE_SMILE,
    EYE_SURPRISE,
    EYE_SLEEP,
    EYE_ERROR,
} eye_state_t;

void eye_set_state(eye_state_t state)
{
    switch (state) {
    case EYE_IDLE:
        eye_show_idle();
        break;

    case EYE_WAKEUP:
        eye_show_wakeup();
        break;

    case EYE_LISTENING:
        eye_show_listening();
        break;

    case EYE_THINKING:
        eye_show_thinking();
        break;

    case EYE_TALKING:
        eye_show_talking();
        break;

    case EYE_SMILE:
        eye_show_smile();
        break;

    case EYE_SLEEP:
        eye_show_sleep();
        break;

    default:
        eye_show_idle();
        break;
    }
}

这样 AI 回复的每一个状态，都可以通过双目屏表达出来。

7. 四博小助手：配网、语音克隆、知识库一体化

四博 AI 双目适配四博小助手小程序后，产品体验会更完整。

小程序可以承担：

复制代码

1. Wi-Fi / BluFi 配网
2. 设备绑定
3. 角色配置
4. 一键语音克隆
5. 专属知识库创建
6. 唤醒词配置
7. 音色选择
8. OTA 升级
9. 儿童模式 / 学习模式 / 陪伴模式切换

语音克隆流程可以设计为：

复制代码

用户在小程序录制音频
        ↓
上传云端生成 voice_id
        ↓
voice_id 下发到设备
        ↓
设备保存到 NVS
        ↓
每次 TTS 请求携带 voice_id
        ↓
云端返回对应克隆音色

协议示例：

复制代码

{
  "type": "tts_request",
  "device_id": "sibo_ai_eye_001",
  "voice_id": "clone_mom_001",
  "text": "宝贝，今天也要开心学习哦。",
  "format": "opus",
  "sample_rate": 16000
}

知识库请求可以这样设计：

复制代码

{
  "type": "chat_request",
  "device_id": "sibo_ai_eye_001",
  "user_id": "user_001",
  "kb_id": "child_learning_kb",
  "voice_id": "clone_mom_001",
  "text": "给我讲一下这个成语是什么意思"
}

云端返回：

复制代码

{
  "type": "chat_response",
  "answer": "这个成语的意思是做事情要坚持，不要半途而废。",
  "tts_url": "https://server.com/tts/clone_mom_001_001.opus",
  "action": {
    "eye": "talking",
    "vibration": "short"
  }
}

8. 设备端主流程

AI 双目音箱的主流程可以这样写：

复制代码

void app_main(void)
{
    nvs_flash_init();

    wifi_init();
    ai_client_init();
    audio_init();
    eye_display_init();
    touch_init();
    imu_init();
    vibration_init();

    while (1) {
        ai_event_t evt = ai_wait_event();

        switch (evt) {
        case AI_EVT_WAKEUP:
            eye_set_state(EYE_WAKEUP);
            vibration_play(VIB_SHORT);
            break;

        case AI_EVT_TOUCH_HEAD:
            handle_touch_head();
            break;

        case AI_EVT_TOUCH_LEFT:
            audio_prev();
            eye_set_state(EYE_SMILE);
            break;

        case AI_EVT_TOUCH_RIGHT:
            audio_next();
            eye_set_state(EYE_SMILE);
            break;

        case AI_EVT_GESTURE_SHAKE:
            eye_set_state(EYE_SURPRISE);
            vibration_play(VIB_DOUBLE);
            ai_send_event_to_cloud("gesture_shake");
            break;

        case AI_EVT_CLOUD_REPLY:
            eye_set_state(EYE_TALKING);
            audio_play_tts();
            break;

        default:
            break;
        }
    }
}

核心设计思想是：

复制代码

触摸、姿态、语音全部统一转成事件；
事件再驱动双目屏、震动、音频和云端 AI。

这样软件结构更清晰，后续扩展摄像头、舵机、灯光、4G 模块也更方便。

9. 产品卖点提炼

对外宣传可以这样总结：

复制代码

四博 AI 双目，标配四路触控感应和震动马达；
通配 0.71 / 1.28 寸双目光屏；
内置三轴高精度传感器，姿态感应精准灵敏；
支持四博小助手小程序，一键语音克隆，自建专属知识库；
基于 ESP32-S3 AI 平台，适合 AI 音箱、桌宠、早教机、学习机和陪伴机器人快速量产。

一句话版本：

复制代码

四博 AI 双目，不只是智能音箱，而是一套集语音、表情、触摸、震动、姿态感应、语音克隆和知识库于一体的高性价比 AI 陪伴硬件方案。