根据语义切分视频

背景

现在有个需求,拿到一个完整视频,然后需要将视频切分成2min左右的段落,然后总结每一段的内容。

需求点

1.切分要完整,切完了之后的所有视频还能拼回一个完整视频

2.切分要有完整性,切分点要选择一句说刚好说完的位置。

3.最好有逻辑性,每段都能表达一个完整意思。

解决方案

第一版;

1.通过whisper提取视频字幕。

2.将字幕扔给chatgpt,要求他根据我的需求切分

3.拿到chatgpt的回复,提取出切分建议

4.切分视频

5.切分字幕

6.将小段字幕发给chatgpt,要求进行总结

总的来说,流程是跑通了,但是最大的问题是第二步,chatgpt的回复不尽如人意,要么答非所问,要么回答的格式不合适。

猜测是输入文本太长,指令不能很好的遵守,所以切分点会非常的飘,每次的结果都是一次惊吓。

第二版

目前不带满意的地方其实就是第二步,所以只改进第二步,不使用大模型去切分,直接根据句子数量切分,基本没有智能,但是因为提取的字幕直接就是完整的句子作为一行,所以句子拼接段落也挺丝滑,最大的问题可能就是切分点不太合适,但是这种办法非常稳定,不会出现不需要的内容。

第三版

还是想试试人工智能能不能干这事儿,所以先把所有字幕提取出来,拼接成完整文本,不带时间戳那种,扔给人工智能直接分段,这一步,不同的大模型表现千差万别,gpt-4o表现的比国产的好一些,返回的结果也能用,缺点是一次不能给过多文本,优点是比第二种切分点更合适。

总结

目前尝试了能跑通的是这三种方法,其他一些跑不通的没记录,之后如果有更好的方案再记录。

相关推荐
陈敬雷-充电了么-CEO兼CTO39 分钟前
字节跳动开源Coze,开启AI Agent开发新时代?
人工智能·gpt·chatgpt·开源·大模型·agi·coze
强德亨上校1 小时前
2025年7月21–28日AI开发周报:新模型、新战略与开源亮点
人工智能·科技·gpt·chatgpt·开源·aigc
DM今天肝到几点?1 小时前
【7.26-7.28胜算云AI日报:首个开源3D世界生成模型腾讯混元、微软预示 8 月 GPT-5 发布、Nemotron推理、商汤悟能、DM夺金】
人工智能·vscode·microsoft·3d·ai·chatgpt
vvandre21 小时前
ChatGPT桌面版深度解析
chatgpt
一个处女座的程序猿3 天前
LLMs之Agent:ChatGPT Agent发布—统一代理系统将研究与行动无缝对接,开启智能助理新时代
chatgpt·agent
gptplusplus3 天前
停止“玩具式”试探:深入拆解ChatGPT Agent的技术栈与实战避坑指南
chatgpt
WSSWWWSSW3 天前
基于模拟的流程为灵巧机器人定制训练数据
人工智能·chatgpt·机器人
一休哥助手4 天前
ChatGPT Agent架构深度解析:OpenAI如何构建统一智能体系统
人工智能·chatgpt·架构
qq_417719984 天前
免费的大模型面试辅导系列课程
人工智能·深度学习·chatgpt·面试·职场和发展·求职招聘
AI探知-阿薇5 天前
智能体之变:深度解析OpenAI ChatGPT Agent如何重塑人机协作的未来
人工智能·chatgpt