百度PaddleSpeech识别大音频文件报错

一、背景

公司前同事留下了一套语音识别项目,内部使用百度PaddleSpeech。在项目验收的时候发现无法识别大音频文件,但是可以识别小音频文件。

这套项目是通过python调用的百度PaddleSpeech,然后提供了restful接口,然后java项目可以通过接口来进行语音识别。

二、解决方案

我看了一下前同事留下的代码,发现报错信息来自百度PaddleSpeech内部,所以修改源代码这条路基本无解。

我通过互联网搜索到"根据百度AI开放平台的错误码汇总,如果音频时长超过60秒,将会导致错误。"

基于上述情况,我准备调用java代码操作ffmpeg工具将大音频文件进行分割,然后针对小音频逐个识别,最终拼接识别结果即可。

我切分的标准是50s一段,基本都是可以识别出来的。

拓展:

百度PaddleSpeech语音识别目前格式仅支持pcm、wav或amr,我们常见一点的是wav格式。由于不支持mp3格式,如果想识别mp3格式文件内容,也可以使用ffmpeg进行文件格式转换,转换完成之后就可以识别了

相关推荐
马士兵教育11 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
snow@li11 小时前
Java:理解 Gradle / 后端项目的管家 / 打包SpringBoot 应用 / 完成编译、下载依赖、运行测试、打包 JAR/WAR / 速查表
java
云烟成雨TD12 小时前
Spring AI 1.x 系列【57】动态工具发现:Tool Search Tool
java·人工智能·spring
zfoo-framework12 小时前
[修改代码使用]codex官方app中使用中转(不需要cc-switch) 1.config.toml 2.sk方式登录
java
逍遥德12 小时前
MQTT教程详解-05.SpringBoot集成mqtt client 性能分析
java·spring boot·spring·mt
云烟成雨TD12 小时前
Spring AI 1.x 系列【54】Retry 机制分析
java·人工智能·spring
weixin_5231853212 小时前
Collections.unmodifiableMap详解:真的不可修改吗?
java·linux·前端
点燃大海12 小时前
SpringAI构建智能体
java·spring boot·spring·springai智能体
xier_ran12 小时前
【infra之路】02_RadixAttention与KV_Cache管理
java·spring boot·spring
黑马师兄13 小时前
RAG混合检索深度解析:让AI真正找到你要的内容
java·人工智能·ai·agent·rag·ai-native