根据语义切分视频

背景

现在有个需求,拿到一个完整视频,然后需要将视频切分成2min左右的段落,然后总结每一段的内容。

需求点

1.切分要完整,切完了之后的所有视频还能拼回一个完整视频

2.切分要有完整性,切分点要选择一句说刚好说完的位置。

3.最好有逻辑性,每段都能表达一个完整意思。

解决方案

第一版;

1.通过whisper提取视频字幕。

2.将字幕扔给chatgpt,要求他根据我的需求切分

3.拿到chatgpt的回复,提取出切分建议

4.切分视频

5.切分字幕

6.将小段字幕发给chatgpt,要求进行总结

总的来说,流程是跑通了,但是最大的问题是第二步,chatgpt的回复不尽如人意,要么答非所问,要么回答的格式不合适。

猜测是输入文本太长,指令不能很好的遵守,所以切分点会非常的飘,每次的结果都是一次惊吓。

第二版

目前不带满意的地方其实就是第二步,所以只改进第二步,不使用大模型去切分,直接根据句子数量切分,基本没有智能,但是因为提取的字幕直接就是完整的句子作为一行,所以句子拼接段落也挺丝滑,最大的问题可能就是切分点不太合适,但是这种办法非常稳定,不会出现不需要的内容。

第三版

还是想试试人工智能能不能干这事儿,所以先把所有字幕提取出来,拼接成完整文本,不带时间戳那种,扔给人工智能直接分段,这一步,不同的大模型表现千差万别,gpt-4o表现的比国产的好一些,返回的结果也能用,缺点是一次不能给过多文本,优点是比第二种切分点更合适。

总结

目前尝试了能跑通的是这三种方法,其他一些跑不通的没记录,之后如果有更好的方案再记录。

相关推荐
我们的五年1 小时前
DeepSeek 和 ChatGPT 在特定任务中的表现:逻辑推理与创意生成
人工智能·chatgpt·ai作画·deepseek
浮华落定7 小时前
DeepSeek+即梦 做AI视频
人工智能·chatgpt·音视频
奇偶变不变13 小时前
过于依赖chatgpt编程会有哪些弊端?
人工智能·chatgpt
mygodalien16 小时前
Win7编译GPU版llama.cpp部署deepseek-r1等大模型记录
人工智能·机器学习·chatgpt·llama
赵钰老师16 小时前
【科研创新与智能化转型】AI智能体开发与大语言模型的本地化部署、优化技术
人工智能·语言模型·自然语言处理·chatgpt·数据分析
qq_4335021816 小时前
Flowith.io 初探:DeepSeek-R1免费用,用画布式 AI 提升效率和创意
人工智能·经验分享·chatgpt·学习方法·ai写作·知识库·画布
月光技术杂谈1 天前
关于DeepSeek与ChatGPT等模型的原始训练数据
chatgpt·语料库·训练数据·ai模型·数据分类·deepseek·训练样本
小小鱼儿小小林1 天前
ChatGPT vs DeepSeek详细对比
chatgpt·deepseek
四念处茫茫2 天前
DeepSeek与ChatGPT:AI语言模型的全面对决
人工智能·语言模型·chatgpt