LLM实现视频切片&合成 前沿知识调研

1.相关产品

产品 链接
腾讯智影 https://zenvideo.qq.com/
可灵 https://klingai.kuaishou.com/
即梦 https://jimeng.jianying.com/ai-tool/home/
Runway https://aitools.dedao.cn/ai/runwayml-com/
Descript https://www.descript.com/?utm_source=ai-bot.cn/
Opus Clip https://www.opus.pro/not-available?utm_source=ai-bot.cn/
Wondershare Filmora https://www.wondershare.com
AI Podcast Clips https://app.simplified.com/social-media
Vadoo AI https://ai.vadoo.tv/
WUI.AI https://www.wui.ai/zh-CN/clip-settings
FunClip https://github.com/modelscope/FunClip
AutoCut https://github.com/mli/autocut

2. 功能

产品 功能
腾讯智影 支持在线剪辑、素材库比较多、文生视频、视频解说、数字人播报
可灵 文本生成视频、图片生成视频、文字生成图片
即梦 文本生成视频、图片生成视频、文字生成图片
Runway 图片生成视频、文本生成视频、文本转语音(提供大量音色)、文本生成图片
Descript 基于文本剪辑视频
Opus Clip 视频切片 :自动从长视频中提取精彩片段,生成短视频。AI分析 :使用人工智能技术分析视频内容,识别亮点和重要时刻。一键生成短视频 :提供快速生成短视频的选项,简化编辑流程。片段选择:允许用户手动选择或调整Al挑选的片段,以确保最多视频符合预期。视频编辑:提供基本的视频编辑功能,如裁剪、排序和调整片段。
Wondershare Filmora AI助手剪辑 :使用个人AI助理编辑视频(分段,有点短),改善编辑流程。AI文字型编辑 :将视频转换成文字,并使用基于文字的AI编辑,像编辑文件一样方便。AI缩略图制作 :使用有效的缩略图吸引观众目光。AI音乐生成器 :立即创作各种风格、情感和节奏的音乐。10,000+高质视频模板 :告别枯燥的编辑工作,提升影片品质。创意资源拓展:超过1,500万个文字、音频、转场、特效和贴纸等资源。跨平台支持:在电脑、iPad和手机上编辑、存储和分享内容。
AI Podcast Clips 自动分析视频 :识别关键时刻和说话人变化。长视频变短视频(精华) :自动生成带有字幕的短视频剪辑。 提供视频编辑器以调整视频比例和分辨率预测 视频剪辑在社交媒体上的潜在表现(分数) 。支持最大500MB的视频文件。
Vadoo AI 长视频变短视频
WUI.AI 长切短、总结、拆分章节、增加字幕
FunClip 阿里开源的基于LLM的智能剪辑
AutoCut 基于Markdown的可视化剪辑

3. 使用体验

目前国内大多数聚焦于大模型实现文生图文生视频很少 有基于LLM实现智能剪辑 的应用。国外关于LLM实现智能剪辑的产品较多 ,如WUI.AIOpus Clip (国内不能访问),智能剪辑体验 起来比较丝滑 ,但存在剪辑视频断头断尾技术不开源 的问题。国内阿里开源的FunClip 提供了智能视频剪辑的解决方案,但同样存在剪辑视频断头断尾文字和时间戳不在同一轨道的情况。

4. FunClip底层技术

阿里开源的Funclip技术如下:

1)将视频转化为音频(ffmpeg);

2)使用ASR模型完成音频的转录;

3)基于转录的字幕使用LLM完成精华的提取;

4)根据LLM提取的内容,使用movie完成基于时间戳实现视频的剪辑。

5. Autocut底层技术

AutoCut 对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。你无需使用视频编辑软件,只需要编辑文本文件即可完成剪切。采用的ASR 模型是Open AI 开源的whisper 模型。

在使用AutoCut的时候,剪辑需要基于Markdown进行点击(费时费眼),且需要自己对视频理解的十分透彻 。为此我们可以基于LLM完成精彩片段 的提炼,然后编写正则表达式对Markdown内容进行自动点击。

6.未完待续

1)使用OCR实现ASR识别字幕的不准确性。

参考内容 https://zhuanlan.zhihu.com/p/10856868833

2)编写长变短、按照主题提取的Prompt模版。

参考

相关推荐
无垠的广袤2 小时前
【工业树莓派 CM0 NANO 单板计算机】本地部署 EMQX
linux·python·嵌入式硬件·物联网·树莓派·emqx·工业物联网
艾莉丝努力练剑3 小时前
【Python基础:语法第一课】Python 基础语法详解:变量、类型、动态特性与运算符实战,构建完整的编程基础认知体系
大数据·人工智能·爬虫·python·pycharm·编辑器
gCode Teacher 格码致知3 小时前
Python基础教学:如何拼接字符串?-由Deepseek产生
python
还债大湿兄3 小时前
阿里通义千问调用图像大模型生成轮动漫风格 python调用
开发语言·前端·python
blank@l3 小时前
python测开小工具--日志查询分析工具
python·python接口自动化测试基础·python测试开发·日志查询分析·日志分析统计查询·软件测试工具·argparse模块
Together_CZ3 小时前
Cambrian-S: Towards Spatial Supersensing in Video——迈向视频中的空间超感知
人工智能·机器学习·音视频·spatial·cambrian-s·迈向视频中的空间超感知·supersensing
Android系统攻城狮3 小时前
Android16音频之设置音频属性AudioTrack.Builder().setAudioAttributes:用法实例(一百一十九)
音视频·android16·音频进阶
hu_nil3 小时前
LLMOps-第十三周
python·vllm
空影星3 小时前
轻量日记神器RedNotebook,高效记录每一天
python·数据挖掘·数据分析·音视频
Black蜡笔小新3 小时前
视频汇聚平台EasyCVR赋能石油管道计量站精准监控与安全管理
安全·音视频