使用Trae SOLO模式开发一个视频提取文字并总结归纳的工具——附线上预览地址

前言

本文记录使用Trae SOLO模式开发一个视频提取文字并总结归纳的工具

线上地址:ashuai.site:24680/

需求场景表述

  • 笔者是前端开发,但是对产品经理的知识了解不多,所以想学习产品经理的知识,问之前的产品同事要了一份视频课程,无奈课程时长起步一个多小时,如果一点点开,或者快进看,也是效率略低。

  • 因此,笔者想开发一个工具,能够一键提取视频中的内容文字,并把内容文字交给大模型,由大模型总结摘要

  • 这样我就可以快速学习产品经理的知识,而不是浪费时间在看视频上

首先,我需要做技术框架选型,限定为react+vite+ts+antd+tailwindcss

篇幅原因,把内容文字交给大模型,由大模型总结摘要这一步,笔者没有再solo
同质化调用大模型api的文章,可以参考笔者先前的文章:《效能工具(十)之接入deepseek实现AI学习PDF文档读后感文件批量生成功能》

Trae的SOLO模式开发

1. 基于用户需求,生成对应文档

笔者把上述需求,告知Trae 以后,Trae自动帮我生成一个文档,规划好,它需要做的事情,并且允许我调整这个规划文档,如下:

  • 如果我觉得规划文档冗余,或者缺少东西,可以修修改改
  • 这一步,很像项目经理提出需求后,产品提供的需求拆解文档(包含技术开发要点)

2. 让其按照文档,进行开工

让其按照文档,进行开工,Trae SOLO会自动在命令行执行相关命令,然后在右侧生成对应代码

然后,安装各种依赖

3. 产物变更

当Trae SOLO完毕以后,会提供一个产物汇总,我们可以查看变更,这样能够具体看出来,Trae帮我们写了那些代码

然后,我们查看一下终端

4. 启动项目跑起来,浏览器看效果

默认运行在5173端口上

看看浏览器的效果,发现了一个小bug

5. 告知修复antd的属性弃用的bug

这里可以截图,或者文字输入,把浏览器的bug粘贴,告知Trae,如下

然后,Trae会进行思考,并定位到问题代码,自动修复

这样的话,基本的样子就出来了,接下来,需要我进行人工介入

6. 视频提取文字,技术拆解

视频提取文字,分为这几个步骤

  1. 把视频中的音频剥离出来------使用fluent-ffmpeg这个包
  2. 把音频转成文字------使用whisper-node这个包

fluent-ffmpeg需要下载ffmepg这个工具的本地

whisper-node下载tiny微小版模型就行了

接下来,我需要 Windows 平台,下载ffmepg

参考这篇文章:blog.csdn.net/Natsuago/ar...

最终,笔者把ffmpeg安装好了,如下

7. 发现还得写后端

fluent-ffmpeg和whisper-node需要后端服务,才方便运行,所以,我和Trae沟通后,它又帮我继续创建后端代码

8. 针对于高风险的命令会暂停并提示用户

比如删除文件操作,Trae会停下来solo,然后询问用户是否这样操作,这样还是不错的,防止AI编程误删一些重要的文件

9. 若是方向错误,告知可纠正

  • 实际上,涉及到视频转文本的功能,还是python生态更加合适
  • 笔者一开始,让其使用nodejs生态写后端,而后,solo也发现了并推荐改成python生态
  • 笔者点击同意,选择让其把后端代码改成python生态
  • 然后trae也很清晰地理解了需求
  • 进行了重构
  • 重构过程中,可能也会出现一些报错,也需要人工介入,但是这并不Trae的问题,而是所有AI编程的问题

和人沟通,有什么问题,和AI沟通也会有

有时候,锅不在AI,而在我们,因为我们没有清晰地表达明白需求

10. 来回solo最终得到结果成品

在来回的solo交流中,最终,实现了笔者想要的效果

工具成品

技术栈介绍

注意,以下这总结文档,也是solo出来,我再修改的

效果图

线上地址(不包含后端)

地址:ashuai.site:24680/

服务器内存容量吃紧,就不部署后端了,大家可以自己拉取代码,自己本机跑起来

github仓库代码

地址:github.com/shuirongshu...

注意,若是生产环境,高可用,笔者还是建议,使用云服务商的付费接口

原因主要有两点:

1.开源模型的识别准确率、2.服务器维护成本

总结Trae SOLO模式

  • Trae SOLO模式就是我们开发者化身项目经理角色
  • Trea SOLO化身产品经理写文档、加程序员写代码角色
  • 我们开发者,主要是进行把控、管控、调整
  • 从而让开发出来的项目,符合预期

整体用下来,还是能够提升很大的开发效率的

相关推荐
一只叫煤球的猫1 天前
2025年终总结:我与AI——减少内耗、疯狂学习、享受乐趣
aigc·openai·ai编程
盖世英雄酱581361 天前
Java 组长年终总结:靠 AI 提效 50%,25 年搞副业只赚 4k?
后端·程序员·trae
努力的小郑1 天前
2025年度总结:当我在 Cursor 里敲下 Tab 的那一刻,我知道时代变了
前端·后端·ai编程
薛定谔的猫21 天前
Cursor 系列(2):使用心得
前端·ai编程·cursor
深念Y1 天前
仿B站项目 前端 4 首页 顶层导航栏
前端·vue·ai编程·导航栏·bilibili·ai开发
dragonZhang1 天前
基于 Agent Skills 的 UI 重构实践:从 Demo 到主题化界面的升级之路
前端·ai编程·claude
peterfei1 天前
当AI编辑器学会了Shell命令:IfAI v0.2.6深度测评与实战指南
ai编程·cursor
神秘的猪头1 天前
从“抽卡”到“规范驱动”:Vibe Coding 的进化史与计分小程序实战 🚀
ai编程·trae·vibecoding
初次攀爬者1 天前
RAG知识库增强|MinIO集成完整方案
后端·ai编程
undsky1 天前
【n8n教程】:AI Agent节点,构建你的智能自动化机器人
aigc·ai编程