ESP32-S3-CAM:豆包语音识别文字后控制小车(一)——注册豆包火山引擎开发者接口

这一部分其实主要是我自己走了不少弯路,必须吐槽一下,字节火山引擎这个后台开发者文档和后台管控和阿里真的是没法比,界面管理非常乱,真金白银充了两次以后才慢慢搞明白。

豆包语音最近还搞了个新版本,又得重新学,这几天才把老版本搞明白。

注册火山引擎就不过多描述了,主要是看看选择哪个模型,怎么设置,要用到哪些参数,后面都从哪里去获取,每一个刚开始不清楚的时候,都让人超级崩溃。

1、注册号账号以后,点 页面 最右上角的 控制台,进入控制台页面

2、进入控制台以后,找搜索框,搜 豆包语音

这里很崩溃,豆包语音是专门做语音识别各种业务的,管理页面和多模态识别完全不一样,因为我之前做demo试过图像识别,好不容易搞定了多模态识别,以为换语音识别一样的接口方式,结果发现要重新搞一套。

3、创新应用,输入名字,选择对应的模型,怎么选模型取决于你要用这个模型来干什么,

因为我们这个案例只是用来识别语音指令,比如前进后退,所以用不着特别牛逼的模型,另外还要考虑成本问题,我之前也不知道选哪个模型,都是问豆包的,后来我发现,有个 一句话识别模型,消耗的token最小,效果也很好,于是就选择了这个,如果是想自己开发录音笔,自动播客这类的智能硬件,就要选择其他大点的模型了。

最后我勾选的是这个,中文 一句话识别

4、创建完毕后就可以看到项目列表了,里头有个参数叫 APP ID

官方最近升级了,用api key了,还没有精力去研究,不过应该大同小异。

5、神奇的交互逻辑来了,要现在界面左边的菜单里,点击 一句话识别 ,进入 所有关联了 语音识别 模型的 项目管理页面,在这里才能看到 刚刚新建的项目,以及需要的token,还有接入文档,我目前只发现有这一个找 接入文档的入口方式。

6、点击左边菜单中 一句话识别 进入项目管理页面后,滑动页面到最上方,有个应用名称,在这里选择刚刚新建的 项目,然后点击 试用,我刚刚选择的 办公-中文,它这里自动带出来了,可以支持 应该是 普通话中文,粤语和川渝方言,点 中文 对应的 试用按钮,点击开通 试用版本,

7、这个时候 你就开通了 试用版,要注意,是试用。

试用版 有 20,000 次的调用 额度,只是调试其实完全够用了,我一开始也不知道,点了 开通按钮,然后就会在超过试用额度后,用你充的钱,这一步其实不用,我们做验证,只要代码你不要乱写死循环,还是够用的。

注意,这里有个恶心的地方,上面OK点了以后,页面会弹出来 再让你选一次项目,我忘记截图了,我到现在都没搞懂又选哪个项目和刚刚输入的项目有什么关系,反正莫名其妙的选了default,继续往下进行。

8、上面页面的三个参数非常非常非常重要,APP ID,Access Token和右上角那个 Cluster ID

这三个参数在调用接口的去识别的时候要用到。要记住在这个页面去查看,只有这个页面能找到。

具体这三个参数怎么用,点下面这个接入文档 按钮,因为我们是用api 方式去调用,如果你是自己写APP,那就带点SDK下面那个。

9、打开 这个 接入文档 以后,扫了一眼,这个交互逻辑,简直 可以说 绝望。。。

作者倒是写得超级详细,但是说实话,看了交互流程我就被劝退了,这个交流流程,我起码看了有个十遍,基本看懂了它的过程,但代码怎么写,还是懵逼,这个页面越往下翻 越绝望,那么多参数,那么多变量。。。。

10、关键它这个是Websocket接口,和多模态识别那种 API方式有点不同,不过前面也提了,他们新的交互也增加了API方式,但我已经搞定了Websocket方式了。额。。。

怎么搞定的呢?页面最最最下面 ,终于看到有 demo代码,Python版 12K,还能看

C++ 代码,142M,我靠,下载的欲望都没有。。。但调试板子得用C++ 啊。

于是下载了Python版,然后丢给了豆包去转换,转成 可以在Ardunio IDE里跑的C++代码,

结果还是太天真了,第一,豆包玩代码,从过去经验看,真不行。。。最后是用kimi转的,

能编译通过,但功能不行。预知后事如何,下个帖子继续写。

ESP32-S3-CAM:豆包语音识别文字后控制小车(二)------跑通demo代码

相关推荐
云云只是个程序马喽2 分钟前
AI漫剧创作系统开发定制指南
人工智能·小程序·php
Elastic 中国社区官方博客21 分钟前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents
大数据·人工智能·elasticsearch·搜索引擎·全文检索
迦南的迦 亚索的索22 分钟前
AI_12_Dify_平台介绍
人工智能
HIT_Weston25 分钟前
68、【Agent】【OpenCode】用户对话提示词(任务执行流程)
人工智能·agent·opencode
ting94520001 小时前
Micro1 超详细深度解析:架构原理、部署实战、性能评测与落地应用全指南
人工智能·架构
冰西瓜6001 小时前
深度学习的数学原理(三十三)—— Transformer编码器完整实现
人工智能·深度学习·transformer
科研前沿1 小时前
镜像孪生VS视频孪生核心技术产品核心优势
大数据·人工智能·算法·重构·空间计算
DreamBoy@1 小时前
Mnemra:一键剪藏,让灵感真正可复用(一键从Ai对话页面到飞书云文档,浏览器插件方便好用)
人工智能
小陈phd1 小时前
TensorRT 入门完全指南(一)——从核心定义到生态工具全解析
人工智能·笔记
CeshirenTester2 小时前
从0到1学自动化测试该怎么规划?
人工智能