根据语义切分视频

背景

现在有个需求,拿到一个完整视频,然后需要将视频切分成2min左右的段落,然后总结每一段的内容。

需求点

1.切分要完整,切完了之后的所有视频还能拼回一个完整视频

2.切分要有完整性,切分点要选择一句说刚好说完的位置。

3.最好有逻辑性,每段都能表达一个完整意思。

解决方案

第一版;

1.通过whisper提取视频字幕。

2.将字幕扔给chatgpt,要求他根据我的需求切分

3.拿到chatgpt的回复,提取出切分建议

4.切分视频

5.切分字幕

6.将小段字幕发给chatgpt,要求进行总结

总的来说,流程是跑通了,但是最大的问题是第二步,chatgpt的回复不尽如人意,要么答非所问,要么回答的格式不合适。

猜测是输入文本太长,指令不能很好的遵守,所以切分点会非常的飘,每次的结果都是一次惊吓。

第二版

目前不带满意的地方其实就是第二步,所以只改进第二步,不使用大模型去切分,直接根据句子数量切分,基本没有智能,但是因为提取的字幕直接就是完整的句子作为一行,所以句子拼接段落也挺丝滑,最大的问题可能就是切分点不太合适,但是这种办法非常稳定,不会出现不需要的内容。

第三版

还是想试试人工智能能不能干这事儿,所以先把所有字幕提取出来,拼接成完整文本,不带时间戳那种,扔给人工智能直接分段,这一步,不同的大模型表现千差万别,gpt-4o表现的比国产的好一些,返回的结果也能用,缺点是一次不能给过多文本,优点是比第二种切分点更合适。

总结

目前尝试了能跑通的是这三种方法,其他一些跑不通的没记录,之后如果有更好的方案再记录。

相关推荐
码农小旋风2 小时前
国内使用 Claude 的 5 种路径:网页、订阅、API 和企业方案怎么选
人工智能·chatgpt
DS随心转小程序9 小时前
ChatGPT和Gemini输出乱码怎么解决?借助AI导出鸭高效处理
人工智能·ai·chatgpt·豆包·deepseek·ai导出鸭
AI 编程助手GPT10 小时前
ChatGPT 新手入门与实战操作指南
开发语言·人工智能·git·python·chatgpt
码农小旋风11 小时前
Vibe Coding 工具对比:Cursor、Windsurf、Claude Code 哪款更适合你
gpt·chatgpt·claude
隔窗听雨眠12 小时前
ChatGPT API接入与调优:从能用到用得好的工程实践
chatgpt
浩风祭月12 小时前
如何用 AI 工具 10 倍速学习新技术栈:从零到生产级项目实战
人工智能·学习·chatgpt
oscar99912 小时前
Codex - OpenAI打造的编程智能体
chatgpt·openai·codex
极客老王说Agent1 天前
屏幕理解能力是下一代自动化的关键吗?2026年自动化范式演进深度解析
运维·人工智能·ai·chatgpt·自动化
aihuangwu1 天前
AI导出鸭|ChatGPT与Gemini生成Word文档技术实操
人工智能·ai·chatgpt·word·deepseek·ai导出鸭
yn001 天前
构建 GEO 检测引擎:GetCiteFlow 如何用混合分析架构帮网站被 AI 引用
chatgpt