问题
下游反馈使用 ffmpeg 切割后的音频文件,无法正确识别其声音的性别
排查流程
1,由于线上大部分用户上传音频后,进行切分后的音频都没问题,因此考虑到这些无法识别性别的音频,有格式问题,需要找出其共性,因此查日志导出所有的错误音频
2,发现这些音频格式都是 mp4(mp4 其实是视频文件但是也包含音频)
3,考虑下游不支持识别 mp4 编码的音频,所以做了一个实验:将完整的音频丢给下游,发现可以正确识别
4,简单看了一下代码了解逻辑,考虑是 ffmpeg 内部切分问题,执行 mp4.ffmpeg -i input.mp4 -ac 1 -ar 16000 output.wav 这条命令,并了解 ffmpeg 在内部会做什么。可能是因为内部切分消息不当导致报错的
5,了解采样率、声道、通道数、样本格式为16位,显式设置音频编码器为 MP3。使用 ffmpeg 拆分 mp3 音频,发现没问题。使用 FFmpegFrameRecorder 拆分 mp4 音频,并且导出,发现只截取了前 130 ms 的内容
6,跟代码发现一个 break 逻辑,很可能是这个问题,结果测试发现,视频没结束但是 frame.samples 为 null 了。发现问题根源
java
while ((frame = grabber.grabFrame()) != null) {
// samples 表示音频帧,有些视频文件的中间音频帧为空
if (frame.samples == null) {
// 加了这一层判断,处理了问题。这里额外做音频帧的判断
// if (frame.image != null) {
// continue;
// }
break;
}
// 业务逻辑
...
}
问题总结
视频文件的中间音频帧可能为空导致的问题