小程序语音识别报错:No valid data found in input audio

在开发项目的过程中,需要对小程序收集的语音进行语音识别,但是调用STTAPI接口的时候却返回无效的音频文件,百思不得其解???

这是小程序的语音录音设置

javascript 复制代码
   options: {
        duration: 60000,           // 最长录制时间 60秒(单位为毫秒)
        format: 'wav',             // 音频格式使用 WAV
        sampleRate: 16000,         // 采样率设置为 16kHz
        encodeBitRate: 96000,      // 编码比特率 (256kbps,可以根据需求调整)
        numberOfChannels: 1,       // 单声道音频
       },

虽然小程序给你返回了一个后缀为wav格式的,但是其实里面的数据格式并不是一个标准的wav格式,其实是一个webm的文件,也就是为什么API会报错一个无效的音频文件,因为接口并不支持webm文件的音频识别。

那么我在java中做了如下处理,把webm转为一个标准wav格式
首先需要下载
ffmpeg

仅供参考

java 复制代码
 @PostMapping("/voiceGame")
    public Results<String> Vstart(@RequestParam("file") MultipartFile file) throws IOException, InterruptedException, URISyntaxException, NoSuchAlgorithmException, InvalidKeyException {
        // FFmpeg 的路径
        String ffmpegPath = "D:\\ffmpeg\\ffmpeg-master-latest-win64-gpl-shared\\bin\\ffmpeg.exe";

        // 1. 将上传的文件保存到临时目录
        File webmFile = File.createTempFile("input", ".webm");
        try (FileOutputStream fos = new FileOutputStream(webmFile)) {
            fos.write(file.getBytes());
        }
        System.out.println("WebM文件保存完成");

        // 2. 转换 WebM 文件到 WAV 文件
        File wavFile = File.createTempFile("output", ".wav");

        // 使用 ProcessBuilder 构建 FFmpeg 转换命令
        String[] command = {
                ffmpegPath,
                "-y",                         // 自动覆盖输出文件
                "-i", webmFile.getAbsolutePath(),
                "-t", "30",                   // 限制转换时长为30秒
                "-acodec", "pcm_s16le",       // 强制使用 PCM 编码
                "-ar", "16000",               // 设置采样率 16000 Hz
                wavFile.getAbsolutePath()
        };

        ProcessBuilder processBuilder = new ProcessBuilder(command);
        processBuilder.redirectErrorStream(true); // 合并标准输出和错误输出
        Process process = processBuilder.start();

        // 捕获 FFmpeg 输出
        try (BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()))) {
            String line;
            while ((line = reader.readLine()) != null) {
                System.out.println("FFmpeg output: " + line);
            }
        }

        // 设置超时等待
        boolean completed = process.waitFor(60, TimeUnit.SECONDS);
        if (!completed) {
            process.destroy();
            return Results.error("FFmpeg 转换超时!");
        }

        // 检查 FFmpeg 是否成功
        int exitCode = process.waitFor();
        if (exitCode != 0) {
            return Results.error("转换 WebM 文件到 WAV 失败!");
        }
        System.out.println("转换完成");

        // 3. 将转换后的 WAV 文件读取为字节数组
        byte[] wavBytes = Files.readAllBytes(wavFile.toPath());

        // 4. 将字节数组传递给语音识别
        String recognitionResult = sttStreamClient.STT(wavBytes);

        // 5. 删除临时文件
        webmFile.delete();
        wavFile.delete();

        // 返回语音识别结果
        return Results.success(recognitionResult);
    }
相关推荐
久违 °3 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun4 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.4 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary4 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_4 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记4 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_468466854 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_468466854 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭4 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码4 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络