【具身智能】本地实时语音识别kaldi在正点原子RK3588上部署

纸上得来终觉浅,终知此事要躬行

费曼学习法:确定目标,以教代学,不断反馈和总结


1. 安装

官网上描述有3种安装方法:从预构建wheels下载安装、直接在目标板安装和通过交叉编译工具编译安装。

预构建wheels安装

首先登陆rk3588终端查看安装的python版

root@ATK-DLRK3588:/# python --version

Python 3.10.5

下载对应python版本的whl文件,由于我的arm 64位开发板对应的python版本为3.10,所以下载 sherpa_onnx-1.11.2-cp310-cp310-linux_aarch64.whl安装包。如果使用网页下载速度太慢,建议在链接上右击使用迅雷下载。

下载连接: https://k2-fsa.github.io/sherpa/onnx/rk-npu-cn.html

登录开发板,新建文件夹/userdata/caldi

cd /userdata

mkdir caldi

在adb所在文件夹,按住shift键右击,打开powershell窗口,输入如下命令复制文件到开发板的caldi目录。如果adb命令执行失败,将adb所在目录添加到环境变量的path变量里。

adb push sherpa_onnx-1.11.2-cp310-cp310-linux_aarch64.whl /userdata/caldi

进入到/userdata/caldi目录,进行安装

pip install sherpa_onnx-1.11.2-cp310-cp310-linux_aarch64.whl

警告先不用管

检查sherpa-onnx是否安装成功

2. 识别文件

在Ubuntu上下载识别文件

由于需要VPN,经常下载到一半失败,建议通过迅雷下载

解压压缩包

复制到开发板上

登录开发板,进入目录/userdata/caldi,使用如下命令进行语音文件转文本测试

sherpa-onnx \

--provider=rknn \

--encoder=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/encoder.rknn \

--decoder=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/decoder.rknn \

--joiner=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/joiner.rknn \

--tokens=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/tokens.txt \

./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/test_wavs/4.wav

显示如下代表成功

如果出现RKNN报错,需要重新安装librknnrt.so,经测试2.2.0版本是可以用的。

librknnrt.so 下载地址https://github.com/airockchip/rknn-toolkit2/blob/master/rknpu2/runtime/Linux/librknn_api/aarch64/librknnrt.so

下载整个仓库会耗费大量时间,可以用GitHub directory downloader下载单独文件。

3. 实时语音识别

首先获取麦克风设备的名称,使用命令 arecord -l

复制代码

使用card 0,device 0,USB 摄像头上的麦克风

sherpa-onnx-alsa \

--provider=rknn \

--encoder=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/encoder.rknn \

--decoder=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/decoder.rknn \

--joiner=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/joiner.rknn \

--tokens=./sherpa-onnx-rk3588-streaming-zipformer-small-bilingual-zh-en-2023-02-16/tokens.txt \

plughw:0,0

输出如下,代表成功

参考链接:

实时语音识别Kaldi官网

111. 新一代Kaldi + RK NPU: 本地实时语音识别之rk3588_哔哩哔哩_bilibili

相关推荐
IT古董39 分钟前
【第五章:计算机视觉-项目实战之图像分割实战】1.图像分割理论-(2)图像分割衍生:语义分割、实例分割、弱监督语义分割
人工智能·计算机视觉
大明者省2 小时前
《青花》歌曲,使用3D表现出意境
人工智能
一朵小红花HH3 小时前
SimpleBEV:改进的激光雷达-摄像头融合架构用于三维目标检测
论文阅读·人工智能·深度学习·目标检测·机器学习·计算机视觉·3d
Daitu_Adam3 小时前
R语言——ggmap包可视化地图
人工智能·数据分析·r语言·数据可视化
weixin_377634843 小时前
【阿里DeepResearch】写作组件WebWeaver详解
人工智能
AndrewHZ3 小时前
【AI算力系统设计分析】1000PetaOps 算力云计算系统设计方案(大模型训练推理专项版)
人工智能·深度学习·llm·云计算·模型部署·大模型推理·算力平台
AI_gurubar3 小时前
[NeurIPS‘25] AI infra / ML sys 论文(解析)合集
人工智能
胡耀超4 小时前
PaddleLabel百度飞桨Al Studio图像标注平台安装和使用指南(包冲突 using the ‘flask‘ extra、眼底医疗分割数据集演示)
人工智能·百度·开源·paddlepaddle·图像识别·图像标注·paddlelabel
聆思科技AI芯片4 小时前
【AI入门课程】2、AI 的载体 —— 智能硬件
人工智能·单片机·智能硬件
优秘智能UMI4 小时前
UMI企业智脑智能营销:多平台视频矩阵引领营销新潮流
大数据·运维·人工智能·ai·矩阵·aigc