根据语义切分视频

盖丽男2024-07-17 21:45

现在有个需求，拿到一个完整视频，然后需要将视频切分成2min左右的段落，然后总结每一段的内容。

1.切分要完整，切完了之后的所有视频还能拼回一个完整视频

2.切分要有完整性，切分点要选择一句说刚好说完的位置。

3.最好有逻辑性，每段都能表达一个完整意思。

1.通过whisper提取视频字幕。

2.将字幕扔给chatgpt，要求他根据我的需求切分

3.拿到chatgpt的回复，提取出切分建议

4.切分视频

5.切分字幕

6.将小段字幕发给chatgpt，要求进行总结

总的来说，流程是跑通了，但是最大的问题是第二步，chatgpt的回复不尽如人意，要么答非所问，要么回答的格式不合适。

猜测是输入文本太长，指令不能很好的遵守，所以切分点会非常的飘，每次的结果都是一次惊吓。

目前不带满意的地方其实就是第二步，所以只改进第二步，不使用大模型去切分，直接根据句子数量切分，基本没有智能，但是因为提取的字幕直接就是完整的句子作为一行，所以句子拼接段落也挺丝滑，最大的问题可能就是切分点不太合适，但是这种办法非常稳定，不会出现不需要的内容。

还是想试试人工智能能不能干这事儿，所以先把所有字幕提取出来，拼接成完整文本，不带时间戳那种，扔给人工智能直接分段，这一步，不同的大模型表现千差万别，gpt-4o表现的比国产的好一些，返回的结果也能用，缺点是一次不能给过多文本，优点是比第二种切分点更合适。

目前尝试了能跑通的是这三种方法，其他一些跑不通的没记录，之后如果有更好的方案再记录。