百度PaddleSpeech识别大音频文件报错

一、背景

公司前同事留下了一套语音识别项目,内部使用百度PaddleSpeech。在项目验收的时候发现无法识别大音频文件,但是可以识别小音频文件。

这套项目是通过python调用的百度PaddleSpeech,然后提供了restful接口,然后java项目可以通过接口来进行语音识别。

二、解决方案

我看了一下前同事留下的代码,发现报错信息来自百度PaddleSpeech内部,所以修改源代码这条路基本无解。

我通过互联网搜索到"根据百度AI开放平台的错误码汇总,如果音频时长超过60秒,将会导致错误。"

基于上述情况,我准备调用java代码操作ffmpeg工具将大音频文件进行分割,然后针对小音频逐个识别,最终拼接识别结果即可。

我切分的标准是50s一段,基本都是可以识别出来的。

拓展:

百度PaddleSpeech语音识别目前格式仅支持pcm、wav或amr,我们常见一点的是wav格式。由于不支持mp3格式,如果想识别mp3格式文件内容,也可以使用ffmpeg进行文件格式转换,转换完成之后就可以识别了

相关推荐
better_liang4 小时前
每日Java面试场景题知识点之-消息队列MQ核心场景与实战
java·面试·kafka·消息队列·rabbitmq·rocketmq·mq
小江的记录本5 小时前
【JVM虚拟机】垃圾回收GC:四种引用类型:强引用、软引用、弱引用、虚引用(附《思维导图》+《面试高频考点清单》)
java·jvm·spring boot·后端·python·spring·面试
Mininglamp_27185 小时前
会中 AI Skill 架构设计解析:3 种人设 × 7 种能力的技术实现
人工智能·语音识别·硬件·ai agent·skill
小马爱打代码5 小时前
Spring源码 第四篇:Spring 5 源码深度拆解:AOP 全流程核心原理
java·后端·spring
better_liang5 小时前
每日Java面试场景题知识点之-SpringBoot启动流程
java·面试·springboot·源码解析·启动流程
RyFit5 小时前
Java + AI 实战:Spring AI 从入门到企业级落地
java·人工智能·spring
ZhengEnCi7 小时前
01-如何监听接口调用情况?
java·spring boot·后端
JAVA面经实录9178 小时前
MyBatis学习体系
java·mybatis
java1234_小锋8 小时前
在 Spring AI 中如何实现函数调用(Function Calling)?请说明其基本原理和应用场景。
java·人工智能·spring
小马爱打代码8 小时前
Spring源码 第九篇:Spring 5 源码深度拆解 - Spring 事件驱动模型
java·后端·spring