AI编程: 使用Trae1小时做成的音视频工具,提取音频并识别文本

背景

在上个月,有网页咨询我怎么才能获取视频中的音频并识别成文本,我当时给他的回答是去问一下AI,让AI来给你答案。

他觉得我在敷衍他,大骂了我一顿,大家觉得我的回答对吗?

小编心里委屈,我觉得现在这个时代,什么问题都可以先咨询AI,实在没思路了再咨询专业的人。

历程

作为一个在软件开发行业摸爬滚打多年的老码农,这种工具肯定还是能手到擒来的。

说实话,之前没想过这个问题,因为从来没做过音视频相关的项目,对这方面的知识了解不多。只知道直播行业对这方面的知识要求比较高。

遇事不决,先问AI。

由于之前了解过ffmpeg用这个工具获取过视频的时长,对此这个工具有基本的认知。

这里我们打开热门的AI IDE Trae,直接用Builder模式问一下一般处理音视频用技术方案,并让他写出Markdown文档。

按照我的要求,给出了独立的md文档。

大体的浏览了一下,文档给出的还是不错的。

能给出具体的技术方案,并给出开发框架的选择。可以说文档的质量还是不错的。修改一下不满足的地方,可以作为实现的技术文档。

技术方案最终用的Electron来实现,这是比较热门的桌面端开发框架。

VSCode、Cherry Studio。

接下来就是让AI自己按照文档的要求实现了,实现的第一版,AI用简单的样式实现了。

第一版相对来说页面看起来不美观,又让ai用UI组件Element-Plus来实现。

最后的版本是这样的布局。

相对来说还是比较简约的,毕竟功能简单。没有太多的实现。如果要添加功能可以在左侧增加一个侧边栏。

对于我来说够用了。

这里设置密钥,使用了硅基流动的FunAudioLLM/SenseVoiceSmall模型进行的获取,目前这个模型还是免费的,质量不错。

最后

看来我没有骗那个网友,用AI确实能解决他的问题。

技术栈

  • Electron
  • Element-Plus
  • NodeJs
  • ffmpeg
相关推荐
飞哥数智坊20 分钟前
先理需求再写代码:新版 Cursor 用 Plan Mode 落地费曼学习法
人工智能·ai编程·cursor
win4r1 小时前
⚡️ 震撼!Claude Code插件系统来了!一行命令打包整套工作流,团队协作效率提升10倍,从此告别复杂配置,这个功能太强大了!
ai编程·claude·vibecoding
PyAIGCMaster2 小时前
VS Code 的 SSH 密钥,并将其安全地添加到服务器
ai编程
hazy1k2 小时前
K230基础-录放音频
人工智能·stm32·单片机·嵌入式硬件·音视频·k230
程序员老刘·2 小时前
2025年Flutter状态管理新趋势:AI友好度成为技术选型第一标准
flutter·ai编程·跨平台开发·客户端开发
大熊猫侯佩15 小时前
大内密探零零发之 iOS 密探神器 AI 大模型 MCP 服务开发记(下)
llm·ai编程·mcp
大熊猫侯佩15 小时前
大内密探零零发之 iOS 密探神器 AI 大模型 MCP 服务开发记(上)
llm·ai编程·mcp
下位子16 小时前
『AI 编程』用 Claude Code 从零到一开发全栈减脂追踪应用
前端·ai编程·claude
子昕16 小时前
Claude Code插件系统上线!AI编程的“App Store”时代来了
ai编程
Java中文社群16 小时前
n8n和在线免费体验蚂蚁万亿开源大模型Ling-1T!
aigc·ai编程