ESP32-S3-CAM:豆包语音识别文字后控制小车(规划)

最近一直很忙,有半个月没折腾板子了,但一直都有个想法,搞个复杂一丢丢的需求,通过MIC拾音,然后豆包后台接口去识别语音内容,转成文字后,再控制小车前进还是后退。

这个完整需求要分成几个步骤:

  1. 注册豆包火山引擎开发者接口
  2. 选择豆包语音识别模型
  3. 跑通豆包语音识别接口官方给的python demo
  4. 转换官方demo代码为C代码跑到板子上
  5. 增加mic拾音后通过豆包语音识别后转文字输出
  6. 通过L298N电机+ESP32-S3-CAM芯片驱动小车
  7. 语音识别转文字后根据指令控制小车前进和后退

前期准备工作:淘宝买了些硬件,刚开始没经验,其实不仅仅要买轮子,还得买个车架子。

买回来发现组装也挺有意思的,不过这玩意比较脆,中间那两个车板子容易碎,具体怎么装小车后面单独帖子介绍。

ESP32-S3-CAM:豆包语音识别文字后控制小车(一)------注册豆包火山引擎开发者接口

相关推荐
科技小花4 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng6 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰6 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976356 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟6 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab6 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐6 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴6 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风6 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何7 小时前
CDA架构代码工坊技能cda-code-lab
人工智能