使用Trae SOLO模式开发一个视频提取文字并总结归纳的工具——附线上预览地址

水冗水孚2025-12-13 11:30

前言

本文记录使用Trae SOLO模式开发一个视频提取文字并总结归纳的工具

线上地址：ashuai.site:24680/

需求场景表述

笔者是前端开发，但是对产品经理的知识了解不多，所以想学习产品经理的知识，问之前的产品同事要了一份视频课程，无奈课程时长起步一个多小时，如果一点点开，或者快进看，也是效率略低。
因此，笔者想开发一个工具，能够一键提取视频中的内容文字，并把内容文字交给大模型，由大模型总结摘要
这样我就可以快速学习产品经理的知识，而不是浪费时间在看视频上

首先，我需要做技术框架选型，限定为react+vite+ts+antd+tailwindcss

篇幅原因，把内容文字交给大模型，由大模型总结摘要这一步，笔者没有再solo
同质化调用大模型api的文章，可以参考笔者先前的文章：《效能工具（十）之接入deepseek实现AI学习PDF文档读后感文件批量生成功能》

Trae的SOLO模式开发

1. 基于用户需求，生成对应文档

笔者把上述需求，告知Trae 以后，Trae自动帮我生成一个文档，规划好，它需要做的事情，并且允许我调整这个规划文档，如下：

如果我觉得规划文档冗余，或者缺少东西，可以修修改改
这一步，很像项目经理提出需求后，产品提供的需求拆解文档（包含技术开发要点）

2. 让其按照文档，进行开工

让其按照文档，进行开工，Trae SOLO会自动在命令行执行相关命令，然后在右侧生成对应代码

然后，安装各种依赖

3. 产物变更

当Trae SOLO完毕以后，会提供一个产物汇总，我们可以查看变更，这样能够具体看出来，Trae帮我们写了那些代码

然后，我们查看一下终端

4. 启动项目跑起来，浏览器看效果

默认运行在5173端口上

看看浏览器的效果，发现了一个小bug

5. 告知修复antd的属性弃用的bug

这里可以截图，或者文字输入，把浏览器的bug粘贴，告知Trae，如下

然后，Trae会进行思考，并定位到问题代码，自动修复

这样的话，基本的样子就出来了，接下来，需要我进行人工介入

6. 视频提取文字，技术拆解

视频提取文字，分为这几个步骤

把视频中的音频剥离出来------使用fluent-ffmpeg这个包
把音频转成文字------使用whisper-node这个包

fluent-ffmpeg需要下载ffmepg这个工具的本地

whisper-node下载tiny微小版模型就行了

接下来，我需要 Windows 平台，下载ffmepg

参考这篇文章：blog.csdn.net/Natsuago/ar...

最终，笔者把ffmpeg安装好了，如下

7. 发现还得写后端

fluent-ffmpeg和whisper-node需要后端服务，才方便运行，所以，我和Trae沟通后，它又帮我继续创建后端代码

8. 针对于高风险的命令会暂停并提示用户

比如删除文件操作，Trae会停下来solo，然后询问用户是否这样操作，这样还是不错的，防止AI编程误删一些重要的文件

9. 若是方向错误，告知可纠正

实际上，涉及到视频转文本的功能，还是python生态更加合适
笔者一开始，让其使用nodejs生态写后端，而后，solo也发现了并推荐改成python生态
笔者点击同意，选择让其把后端代码改成python生态
然后trae也很清晰地理解了需求
进行了重构
重构过程中，可能也会出现一些报错，也需要人工介入，但是这并不Trae的问题，而是所有AI编程的问题

和人沟通，有什么问题，和AI沟通也会有

有时候，锅不在AI，而在我们，因为我们没有清晰地表达明白需求

10. 来回solo最终得到结果成品

在来回的solo交流中，最终，实现了笔者想要的效果

工具成品

技术栈介绍

注意，以下这总结文档，也是solo出来，我再修改的

效果图

线上地址（不包含后端）

地址：ashuai.site:24680/

服务器内存容量吃紧，就不部署后端了，大家可以自己拉取代码，自己本机跑起来

github仓库代码

地址：github.com/shuirongshu...

注意，若是生产环境，高可用，笔者还是建议，使用云服务商的付费接口

原因主要有两点：

1.开源模型的识别准确率、2.服务器维护成本

总结Trae SOLO模式

Trae SOLO模式就是我们开发者化身项目经理角色
Trea SOLO化身产品经理写文档、加程序员写代码角色
我们开发者，主要是进行把控、管控、调整
从而让开发出来的项目，符合预期

整体用下来，还是能够提升很大的开发效率的

上一篇：SQL篇——【MySQL篇：运维】高可用架构搭建（主从、读写分离、分库分表）

下一篇：逻辑回归核心原理与实践指南

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 092026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一 102026 年 AI 大模型 & AI 编程工具实战全总结