在开发项目的过程中,需要对小程序收集的语音进行语音识别,但是调用STTAPI接口的时候却返回无效的音频文件,百思不得其解???
这是小程序的语音录音设置
javascript
options: {
duration: 60000, // 最长录制时间 60秒(单位为毫秒)
format: 'wav', // 音频格式使用 WAV
sampleRate: 16000, // 采样率设置为 16kHz
encodeBitRate: 96000, // 编码比特率 (256kbps,可以根据需求调整)
numberOfChannels: 1, // 单声道音频
},
虽然小程序给你返回了一个后缀为wav格式的,但是其实里面的数据格式并不是一个标准的wav格式,其实是一个webm的文件,也就是为什么API会报错一个无效的音频文件,因为接口并不支持webm文件的音频识别。
那么我在java中做了如下处理,把webm转为一个标准wav格式
首先需要下载 ffmpeg
仅供参考
java
@PostMapping("/voiceGame")
public Results<String> Vstart(@RequestParam("file") MultipartFile file) throws IOException, InterruptedException, URISyntaxException, NoSuchAlgorithmException, InvalidKeyException {
// FFmpeg 的路径
String ffmpegPath = "D:\\ffmpeg\\ffmpeg-master-latest-win64-gpl-shared\\bin\\ffmpeg.exe";
// 1. 将上传的文件保存到临时目录
File webmFile = File.createTempFile("input", ".webm");
try (FileOutputStream fos = new FileOutputStream(webmFile)) {
fos.write(file.getBytes());
}
System.out.println("WebM文件保存完成");
// 2. 转换 WebM 文件到 WAV 文件
File wavFile = File.createTempFile("output", ".wav");
// 使用 ProcessBuilder 构建 FFmpeg 转换命令
String[] command = {
ffmpegPath,
"-y", // 自动覆盖输出文件
"-i", webmFile.getAbsolutePath(),
"-t", "30", // 限制转换时长为30秒
"-acodec", "pcm_s16le", // 强制使用 PCM 编码
"-ar", "16000", // 设置采样率 16000 Hz
wavFile.getAbsolutePath()
};
ProcessBuilder processBuilder = new ProcessBuilder(command);
processBuilder.redirectErrorStream(true); // 合并标准输出和错误输出
Process process = processBuilder.start();
// 捕获 FFmpeg 输出
try (BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()))) {
String line;
while ((line = reader.readLine()) != null) {
System.out.println("FFmpeg output: " + line);
}
}
// 设置超时等待
boolean completed = process.waitFor(60, TimeUnit.SECONDS);
if (!completed) {
process.destroy();
return Results.error("FFmpeg 转换超时!");
}
// 检查 FFmpeg 是否成功
int exitCode = process.waitFor();
if (exitCode != 0) {
return Results.error("转换 WebM 文件到 WAV 失败!");
}
System.out.println("转换完成");
// 3. 将转换后的 WAV 文件读取为字节数组
byte[] wavBytes = Files.readAllBytes(wavFile.toPath());
// 4. 将字节数组传递给语音识别
String recognitionResult = sttStreamClient.STT(wavBytes);
// 5. 删除临时文件
webmFile.delete();
wavFile.delete();
// 返回语音识别结果
return Results.success(recognitionResult);
}