编程神器Trae:当我用上后,才知道自己的创造力被低估了多少

"AI会让每个人都能成为工具创造者,打破你能力边界,有时候只需要一个想法。"

AI粉嫩特攻队,2025年3月23日。

前几天参加了一场行业闭门研讨会,满满1个半小时的干货演讲让我收获颇丰。会后,我迫不及待地想将录音整理成文字,方便日后回顾。却被提示"文件过大"、"超出免费额度"、"需要登录账号"...

"难道就没有一款既快速又准确,还能离线随时使用的音频转文字工具吗?"

突然想起我曾经写过如何用coze搭建AI笔记生成工具,但前提是要有文本。后来就有小伙伴问我有没有好用的音频转文本工具,我决定好好对待一下这个需求。

市面上的音频转文本工具其实很多,但大多存在这些问题:

  • 需要将音频上传到网上(对隐私敏感的用户不友好)

  • 上传大小有限制(通常不大于500MB,或更小)

  • 免费额度有限

  • ...

一番搜索之后,我发现了buzz,它支持whisper的多个模型和离线使用,但实测whisper-tiny比我最终选用的模型慢7~10倍,且识别准确度有待提高。比如它把"可能会有付费"识别成了"可能会有副肺"🤣

除了转换慢和偶尔出现错别字外,buzz还是不错的,尤其是支持导出srt和vtt字幕文件。但我的需求更简单:快速准确地将课程录播、会议录音等转成文本,然后用AI笔记工具整理,方便随时回顾。

再一番调研之后,我选中了这个开源项目:

SenseVoice
https://github.com/FunAudioLLM/SenseVoice

SenseVoice是一个语音基础模型,具有多种功能,包括自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。

对我来说,重要的是它能离线将中文音频快速准确地转成文字,而且在音频时长增加的情况下,处理时间增加不明显!实测用时如下:

不同硬件配置下,2.5w~5w字、1.5小时、1.9G大小的音频文件处理速度对比:

  • CPU 12th Gen Intel(R) Core(TM) i9-12900KS:耗时5分钟

  • NVIDIA GTX 1660Ti 6G显存:耗时2分钟

  • NVIDIA RTX 3090 24G显存:耗时10~15秒

基于SenseVoice项目,我决定开发一个桌面工具,感觉这样比较方便更多人使用,毕竟不是每个人都知道如何将这个开源项目部署到本地,并且快速的用起来。通常桌面应用开发是会让我望而却步的,但自从有了cursor和trae这样的AI编码神器,情况开始不一样了!

首先,trae是字节开发的AI编程神器,分为海外版和国内版。我用的是海外版,因为可以免费使用Claude 3.5和3.7,而国内版只能用DeepSeek等国内大模型。

访问https://www.trae.ai/下载trae海外版:

安装后打开trae,界面如下:

注册登录后,安装Python相关插件:

然后就可以开始开发了,我先下载了SenseVoice开源项目的源码,然后在trae中打开,然后仅保留需要的核心文件(音频转文字功能),其它文件可以先删掉。

然后,下载两个模型文件,放到新建的models目录中:

  • speech_fsmn_vad_zh-cn-16k-common-pytorch(用于检测有效语音)

  • SenseVoiceSmall(用于将语音转成文字)

然后,新建一个mydata目录,用于存放输入的音频文件和输出的txt文件。

然后,安装依赖包:

复制代码
--extra-index-url https://download.pytorch.org/whl/cu118
torch==2.0.1+cu118
torchvision==0.15.2
torchaudio==2.0.2
modelscope==1.20.1
huggingface==0.0.1
huggingface_hub==0.26.3
funasr>=1.1.3
numpy<=1.26.4
gradio==5.7.1
fastapi>=0.111.1
PyQt5>=5.15.0
PyInstaller>=5.0.0

(PyQt5和PyInstaller两个依赖包是我在下面与trae提供的claude聊天过程,自动添加进去的。其它依赖是SenseVoice 开源项目本身需要的。)

接下来打开trae的chat界面,选择Claude 3.5.

提出我的要求:"帮我写一个桌面应用程序,支持批量上传音频文件,然后点击转换后可以看到进度条,转换成功后的文本可以显示出来,并提供保存成本地文件的功能。"

AI很快生成了app.py和build-script.py两个文件,并自动安装了PyQt5和PyInstaller依赖。执行app.py测试,很强,居然一次成功!

再试一下用build-script.py打包成exe文件,执行打包后的exe文件,果然还是报错了。

无妨,我不断把错误信息发给trae,大概3轮左右,就可以运行打包好的exe程序了。得到的界面效果如下:

本来到这应该就可以了,但是突然感觉这个界面有点太普通了。我继续让Claude帮我改改皮肤美化美化:"重新设计这个代码中的皮肤,改为AI科技多巴胺风格,符合当下年轻人的审美,让人用的舒服。"AI再次惊艳到我,甚至帮我加了启动画面的代码!

接着我又让它帮我修改了一些细节,比如添加了一个最小化的按钮,加了一些申明,都是直接提要求,AI会自己思考加在哪里更合适,基本都是满意的。然后,我又得到了下面这个界面:

测试上传多个音频文件并转换,一切正常,文本显示和保存功能都没问题。没得说,没得说,只能哇塞了。

写在最后

回顾整个开发过程,我不禁再次感叹AI工具带来的变革。曾经,开发一款桌面应用对我这样的非专业开发者来说是非常难,更别说这种炫酷的效果了。而现在,借助trae这样的AI编码神器,我只需描述需求,AI就能生成符合预期的代码。

这不仅仅是技术的进步,更是创造力的解放。AI拓宽了我们创造工具的边界,让我们敢于尝试曾经觉得困难的事情。每个人都可以成为创造者,用自己的想法解决实际问题。

正如这次我用AI开发的音频转文字AI工具,它解决了离线转换大音频文件的痛点,也许正是你一直在寻找的答案。技术的意义,不正是为了让生活变得更美好吗?

我相信,随着AI工具的不断发展,我们将看到更多"外行"人创造出的惊艳作品。这就是AI的魅力所在------它不是替代人类,而是赋能我们,让不可能变为可能。

如果你也有音频转文字的需求,不妨试试这款用trae开发的AI音频转文字小工具,希望它能为你带来便利!

AI音频转文字小工具下载:微信回复"AI音频转录工具",获取网盘下载地址和提取码。

你用trae做出过哪些好玩的作品?欢迎评论区留言。

以上,既然看到这里了,如果觉得不错,随手点个赞、分享、推荐三连吧,你的鼓励是我持续创作的动力,我们,下次再见。

AI粉嫩特攻队,内卷不灭,奋斗不止!🚀关注我,帮你把时间还给创造!✨

作者:秋水,AI粉嫩特攻队员之一,AI技术应用探索者和实践者,善于发现日常痛点并用AI技术解决问题,热衷于分享AI技术应用心得与成果。

互动交流,请联系邮箱:fennenqiushui@qq.com

相关推荐
KEEN的创享空间6 小时前
AI编程从0到1之10X提效(Vibe Coding 氛围式编码 )09篇
openai·ai编程
AlienZHOU7 小时前
为 AI Agent 编写高质量 Skill:Claude 官方指南
agent·ai编程·claude
恋猫de小郭7 小时前
移动端开发稳了?AI 目前还无法取代客户端开发,小红书的论文告诉你数据
前端·flutter·ai编程
KaneLogger8 小时前
【翻译】打造 Agent Skills 的最佳实践
agent·ai编程·claude
王小酱8 小时前
Everything Claude Code 文档
openai·ai编程·aiops
雮尘9 小时前
如何在非 Claude IDE (TARE、 Cursor、Antigravity 等)下使用 Agent Skills
前端·agent·ai编程
刘贺同学10 小时前
Day12-龙虾哥打工日记:OpenClaw 子 Agent 到底看到了什么?
aigc·ai编程
程序员鱼皮12 小时前
离大谱,我竟然在 VS Code 里做了个视频!
github·aigc·ai编程
Kayshen13 小时前
我用纯前端逆向了 Figma 的二进制文件格式,实现了 .fig 文件的完整解析和导入
前端·agent·ai编程