我用 Java 飞算 AI 快速开发了一个音频转文字工具

从灵感到实现：我用Java飞算AI快速开发了一个音频转文字工具

最近在整理会议录音时，一个脑袋两个大，我突然想到：如果能自动将音频里的内容转成文字，是不是能省去手动记录的麻烦？这个需求在很多场景下都很实用------比如会议纪要整理、采访内容归档、短视频字幕生成，甚至是课堂录音转笔记。但手动逐句听写显然不现实，于是我决定用Java开发一个音频转文字工具。

直接开发需要处理音频解析、语音识别等复杂逻辑，代码量会很大。这时我想到了飞算AI------它能通过自然语言描述快速生成代码框架，还能自动优化逻辑。我只需要描述需求：

"你的任务是开发一个音频转文字工具，流程包括：1.使用FFmpeg提取音频文件中的音频流（支持mp3、wav、mp4等格式）；2.调用语音识别API将音频转成文字；3.将文字结果保存为txt文件，默认按原音频文件名命名；4.支持对无效音频路径、格式不支持、识别失败等情况的异常处理。"

不到10分钟，飞算AI就帮我生成了可运行的项目骨架和关键代码。我稍作调整，就成功实现了一个高效的音频转文字工具！

第一步：安装Java飞算插件

和开发视频工具时一样，首先需要在IDEA中安装飞算插件，步骤简单直接：

打开IDEA，进入「插件市场」（Plugins）
搜索「Java飞算」，找到对应插件（CalEx-JavaAI）
点击「安装」，重启IDEA即可生效

该插件不仅能生成代码，还能辅助需求分析和架构设计，对开发者非常友好。

第二步：智能需求分析

我将音频转文字的需求输入飞算AI，它很快将需求拆解成了5个关键节点，方便后续针对性优化：

需要音频解析功能：支持通过FFmpeg提取多种格式（mp3、wav、mp4等）中的音频流
需要语音识别对接功能：调用第三方语音识别API（如百度AI、阿里云API）将音频转文字
需要文件处理功能：将识别结果保存为txt文件，按原音频文件名命名（如"会议录音.mp3"对应"会议录音.txt"）
需要路径解析功能：验证用户输入的音频路径是否有效，支持绝对路径和相对路径
需要错误处理功能：对格式不支持、API调用失败、文件写入异常等情况进行捕获和提示

第三步：智能接口设计

需求分析完成后，飞算AI自动进入接口设计阶段。它采用模块化分层架构，通过功能解耦确保系统可维护性，生成的核心接口如下：

音频转文字管理接口

负责接收用户输入的音频文件路径和输出目录，执行"音频提取-语音识别-文字保存"全流程。支持路径校验、格式判断、异常处理，最终返回转换结果（成功/失败原因）。

第四步：处理逻辑设计

基于接口设计，飞算AI进一步规划了详细的处理逻辑，包括入参、出参和步骤流程：

入参对象：
- audioPath（音频文件路径，必填）：用户输入的音频文件路径（如"D:\会议\录音.mp3"）
- outputDir（输出目录，选填）：文字结果保存路径，未提供则默认保存在音频文件同目录
核心处理逻辑：
- 校验音频路径：判断路径是否存在、是否为有效文件，若无效返回{"code":"000001","msg":"音频文件路径无效","data":""}
- 解析输出目录：若用户未指定输出目录，默认使用音频文件所在目录；若指定目录无效，返回{"code":"000002","msg":"输出目录无效","data":""}
- 提取音频流：调用FFmpeg命令提取音频（如将mp4中的音频转为wav格式），失败则返回{"code":"000003","msg":"音频提取失败","data":""}
- 调用语音识别API：将提取的音频转文字，失败则返回{"code":"000004","msg":"语音识别失败","data":""}
- 保存文字结果：将识别后的文字写入txt文件，成功则返回{"code":"000000","msg":"转换成功","data":"保存路径"}

第五步：一键生成源码

点击"生成源码"后，飞算AI很快生成了完整的项目文件，包括：

AudioRequest.java：音频转文字请求参数类（封装audioPath和outputDir）
AudioToTextController.java：接口控制器（接收请求并调用服务层）
AudioToTextService.java：核心服务类（实现音频处理、识别、保存逻辑）
RestResult.java：统一响应结构体（标准化返回格式）
pom.xml：项目依赖配置（包含FFmpeg工具类、HTTP请求库等）

关键代码示例

1. 控制器类（AudioToTextController.java）

java 复制代码

package com.feisuanyz.audio;

import com.feisuanyz.audio.AudioRequest;
import com.feisuanyz.audio.AudioToTextService;
import com.feisuanyz.audio.RestResult;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

/**
 * 音频转文字控制器
 */
@RestController
@RequestMapping("/audio")
@Slf4j
public class AudioToTextController {

    @Autowired
    private AudioToTextService audioToTextService;

    /**
     * 执行音频转文字操作
     * @param request 请求参数（包含音频路径和输出目录）
     * @return 转换结果
     */
    @PostMapping("/toText")
    public RestResult<String> toText(@RequestBody AudioRequest request) {
        try {
            String result = audioToTextService.convert(request);
            return new RestResult<>("000000", "转换成功", result);
        } catch (Exception e) {
            log.error("转换失败", e);
            return new RestResult<>("999999", e.getMessage(), "");
        }
    }
}

2. 服务实现类核心方法（AudioToTextService.java）

java 复制代码

/**
 * 音频转文字核心逻辑
 */
public String convert(AudioRequest request) {
    // 1. 校验音频路径
    if (!isValidAudioPath(request.getAudioPath())) {
        throw new RuntimeException("音频文件路径无效或不是支持的格式（mp3、wav、mp4）");
    }

    // 2. 解析输出目录
    String outputDir = resolveOutputDir(request.getAudioPath(), request.getOutputDir());
    if (!isValidDir(outputDir)) {
        throw new RuntimeException("输出目录无效");
    }

    // 3. 用FFmpeg提取音频流（如将mp4转为wav）
    String audioStreamPath = extractAudioWithFFmpeg(request.getAudioPath());
    if (audioStreamPath == null) {
        throw new RuntimeException("FFmpeg提取音频失败");
    }

    // 4. 调用语音识别API（以百度AI为例）
    String textResult = callSpeechRecognitionApi(audioStreamPath);
    if (textResult == null || textResult.isEmpty()) {
        throw new RuntimeException("语音识别失败");
    }

    // 5. 保存为txt文件
    String txtPath = saveTextToFile(request.getAudioPath(), outputDir, textResult);
    return "文字结果已保存至：" + txtPath;
}

系统测试与效果展示

我用APIFox对接口进行测试，请求参数如下：

json 复制代码

{
  "audioPath": "D:\\会议\\上周部门会议.mp4",
  "outputDir": "D:\\会议\\文字纪要"
}

发送请求后，接口返回成功响应：

json 复制代码

{
  "code": "000000",
  "msg": "转换成功",
  "data": "文字结果已保存至：D:\\会议\\文字纪要\\上周部门会议.txt"
}

打开生成的txt文件，内容清晰完整，准确还原了会议中的对话：

makefile 复制代码

【00:01:23】张经理：本周需要完成三季度业绩复盘报告，下周三前提交给我。
【00:02:15】李主管：技术部这边需要延迟两天，因为有个紧急bug要修复。
【00:02:40】张经理：可以，最晚下周五必须提交，不能再拖了。
...

总结

这次开发让我再次感受到智能编程工具的魅力。飞算AI不仅帮我快速生成了代码框架，还在架构设计（如分层处理、异常捕获）和细节优化（如路径校验、格式兼容）上提供了专业建议，让原本需要2-3天的开发工作，半天就完成了。