根据语义切分视频

背景

现在有个需求,拿到一个完整视频,然后需要将视频切分成2min左右的段落,然后总结每一段的内容。

需求点

1.切分要完整,切完了之后的所有视频还能拼回一个完整视频

2.切分要有完整性,切分点要选择一句说刚好说完的位置。

3.最好有逻辑性,每段都能表达一个完整意思。

解决方案

第一版;

1.通过whisper提取视频字幕。

2.将字幕扔给chatgpt,要求他根据我的需求切分

3.拿到chatgpt的回复,提取出切分建议

4.切分视频

5.切分字幕

6.将小段字幕发给chatgpt,要求进行总结

总的来说,流程是跑通了,但是最大的问题是第二步,chatgpt的回复不尽如人意,要么答非所问,要么回答的格式不合适。

猜测是输入文本太长,指令不能很好的遵守,所以切分点会非常的飘,每次的结果都是一次惊吓。

第二版

目前不带满意的地方其实就是第二步,所以只改进第二步,不使用大模型去切分,直接根据句子数量切分,基本没有智能,但是因为提取的字幕直接就是完整的句子作为一行,所以句子拼接段落也挺丝滑,最大的问题可能就是切分点不太合适,但是这种办法非常稳定,不会出现不需要的内容。

第三版

还是想试试人工智能能不能干这事儿,所以先把所有字幕提取出来,拼接成完整文本,不带时间戳那种,扔给人工智能直接分段,这一步,不同的大模型表现千差万别,gpt-4o表现的比国产的好一些,返回的结果也能用,缺点是一次不能给过多文本,优点是比第二种切分点更合适。

总结

目前尝试了能跑通的是这三种方法,其他一些跑不通的没记录,之后如果有更好的方案再记录。

相关推荐
wumingxiaoyao2 小时前
AI - AI Agent 是什么?为什么最近这么火?
人工智能·ai·chatgpt·ai agent
Wise玩转AI5 小时前
Day 26|智能体的“伦理与安全边界”
人工智能·python·安全·ai·chatgpt·ai智能体
双木的木6 小时前
Coggle数据科学 | 并行智能体:洞察复杂系统的 14 种并发设计模式
运维·人工智能·python·设计模式·chatgpt·自动化·音视频
玖日大大7 小时前
GenFlow 3.0:重构生成式 AI 工作流的新一代智能编排平台
人工智能·chatgpt·文心一言
黑客思维者3 天前
ChatGPT软件开发提示词库:开发者常用150个中文提示词分类与应用场景设计
人工智能·chatgpt·提示词·软件开发
孤廖3 天前
终极薅羊毛指南:CLI工具免费调用MiniMax-M2/GLM-4.6/Kimi-K2-Thinking全流程
人工智能·经验分享·chatgpt·ai作画·云计算·无人机·文心一言
带刺的坐椅4 天前
Solon AI 开发学习4 - chat - 模型实例的构建和简单调用
java·ai·chatgpt·solon
T***16075 天前
DeepSeek在文本生成中的ChatGPT
chatgpt
中國龍在廣州5 天前
现在人工智能的研究路径可能走反了
人工智能·算法·搜索引擎·chatgpt·机器人
七宝大爷5 天前
基于人类反馈的强化学习(RLHF):ChatGPT“对齐”人类的秘密武器
人工智能·chatgpt