ESP32 S3 语音识别 语音唤醒程序流程

ESP32 S3 语音识别 语音唤醒程序流程

参考例程

D:\Espressif\esp-adf\examples\speech_recognition\wwe\

首先进行esp_periph_set_init 初始化

之后注册回调函数periph_callback,在这里当有按键消息的时候执行audio_recorder_trigger_start和audio_recorder_trigger_stop,也就是开始识别和结束识别。

之后执行audio_board_key_init,初始化ADC按键,这个在之前的流程里面讲过,不在多说。

之后执行audio_board_init,初始化音频部分,包括codec和PA,这个要根据板卡进行初始化。

之后执行setup_player,

对播放器进行初始化。播放tone提示音

这里主要是初始化esp_audio_create,把如下element:tone stream、MP3decoder、i2s stream,加到player中。

之后执行start_recorder,

对识别器进行初始化,并启动。

这里新建一个pipline,把i2s stream(读取音频codec的原始数据)、filter、raw stream 这几个element加入并link进pipeline。之后audio_pipeline_run启动pipeline。这样就准备好了音频数据流。

在函数中有初始化了recorder_sr_cfg,这里识别的语音、唤醒使能、mic前端afe等都进行了定义。

之后filter_cfg里面对采样率、buffer等进行了定义。

amrnb_cfg对AMRNB_ENCODER 等参数进行了定义。

之后rsp_filter_init(&filter_cfg),amrnb_encoder_init(&amrnb_cfg)初始化,之后把返回的element句柄注册到recorder_encoder_cfg的resample和encoder中去。

之后初始化audio_rec_cfg_t cfg = AUDIO_RECORDER_DEFAULT_CFG();这里定义了audio recorder 的task优先级、堆栈、唤醒timer等参数。

之后调用cfg.sr_handle = recorder_sr_create(&recorder_sr_cfg, &cfg.sr_iface);,进行recorder sr的创建,这里cfg通过sr_handle,把之前的recorder_sr_cfg(filter_cfg、amrnb_cfg)都联系了起来。

之后在

recorder = audio_recorder_create(&cfg);这样recorder识别器初始化完成。

主程序执行rec_q = xQueueCreate(3, sizeof(int)); 创建Queue

之后主程序 audio_thread_create(NULL, "read_task", voice_read_task, NULL, 4 * 1024, 5, true, 0);

创建thread voice_read_task

识别的主处理voice_read_task

就比较好读懂了:

c 复制代码
static void voice_read_task(void *args)
{
    const int buf_len = 2 * 1024;
    uint8_t *voiceData = audio_calloc(1, buf_len);
    int msg = 0;
    TickType_t delay = portMAX_DELAY;

    while (true) {
        if (xQueueReceive(rec_q, &msg, delay) == pdTRUE) {
            switch (msg) {
                case REC_START: {
                    ESP_LOGW(TAG, "voice read begin");
                    delay = 0;
                    voice_reading = true;
                    break;
                }
                case REC_STOP: {
                    ESP_LOGW(TAG, "voice read stopped");
                    delay = portMAX_DELAY;
                    voice_reading = false;
                    break;
                }
                case REC_CANCEL: {
                    ESP_LOGW(TAG, "voice read cancel");
                    delay = portMAX_DELAY;
                    voice_reading = false;
                    break;
                }
                default:
                    break;
            }
        }
        int ret = 0;
        if (voice_reading) {
            ret = audio_recorder_data_read(recorder, voiceData, buf_len, portMAX_DELAY);
            if (ret <= 0) {
                ESP_LOGW(TAG, "audio recorder read finished %d", ret);
                delay = portMAX_DELAY;
                voice_reading = false;
            }
        }
#if VOICE2FILE == (true)
        voice_2_file(voiceData, ret);
#endif /* VOICE2FILE == (true) */
    }

程序流程梳理完毕。有啥技术问题v吾:robot3g,也可以进Q群 174742054讨论。

相关推荐
缘华工业智维12 分钟前
工业设备预测性维护:能源成本降低的“隐藏钥匙”?
大数据·网络·人工智能
DooTask官方号1 小时前
跨语言协作新范式:阿里云Qwen-MT与DooTask的翻译技术突破
人工智能·ai·项目管理·机器翻译·dootask
凯禾瑞华养老实训室2 小时前
聚焦生活照护能力培育:老年生活照护实训室建设清单的模块设计与资源整合
大数据·人工智能·科技·ar·vr·智慧养老·智慧健康养老服务与管理
倔强青铜三3 小时前
苦练Python第64天:从零掌握多线程,threading模块全面指南
人工智能·python·面试
格林威3 小时前
偏振相机是否属于不同光谱相机的范围内
图像处理·人工智能·数码相机·计算机视觉·视觉检测·工业相机
A-大程序员3 小时前
【pytorch】合并与分割
人工智能·pytorch·深度学习
AI新兵4 小时前
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(上)
人工智能·自然语言处理·transformer
Dongsheng_20194 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——刹车片中的应用
人工智能·汽车
LONGZETECH4 小时前
【龙泽科技】汽车转向悬架与制动安全系统技术1+X仿真教学软件(1.2.3 -初级)
人工智能·科技·汽车·汽车仿真教学软件·汽车教学软件
JAVA学习通4 小时前
PostgreSQL 的 hstore、arrays 数据类型
人工智能·自然语言处理