字幕切分视频

Whisper

仓库地址:

https://github.com/openai/whisper

可用模型信息:

测试视频:18段,总共447S视频(11段前:有11段开头有停顿的视频)

Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。

Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。

WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。

开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。

有的人,在静默的时候还咧嘴笑一笑

一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。

WhisperX误差统计(单位:秒):

总结:1)WhisperX会在视频停顿空语音前,比label都早停顿。缺点:一句话后几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:没语音了,嘴没闭的情况可以解决;

2)WhisperX会在视频停顿空语音后,比label都晚停顿。缺点:一句话开头几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:说话前,嘴动了,却还没发出声的情况,过滤掉。

whisperX

牛津大学的博士生Max Bain开源的模型

https://github.com/m-bain/whisperX

效果如上表所示,很好。

WhisperX accepted at INTERSPEECH 2023

达摩院语音团队Paraformer

https://github.com/alibaba-damo-academy/FunASR

效果:

即:每个字都有start 和end时间戳,没有断句的功能

飞书秒记

https://www.feishu.cn/product/minutes

只有字幕,没有时间戳

相关推荐
Black蜡笔小新1 小时前
WebRTC嵌入式视频通话SDK:EasyRTC从免插件到轻量级带来的音视频通话技术
音视频·webrtc·sdk·rtc·webp2p
EasyNVR1 小时前
EasyRTC:开启智能硬件与全平台互动新时代
网络·音视频·webrtc·p2p·智能硬件·视频监控
EasyGBS1 小时前
从开发到部署:EasyRTC嵌入式视频通话SDK如何简化实时音视频通信的集成与应用
音视频·webrtc·实时音视频·视频监控
AI服务老曹9 小时前
通过感知、分析、预测、控制,最大限度发挥效率的智慧油站开源了
人工智能·开源·自动化·音视频
St-sun10 小时前
短视频导演编导制片人编剧教程策划影视媒体电商摄影后期 知识总结
音视频·媒体
SKYDROID云卓小助手12 小时前
无人设备遥控器之视频回传篇
网络·人工智能·嵌入式硬件·目标检测·计算机视觉·音视频
EasyNVR13 小时前
智能硬件新时代,EasyRTC开启物联音视频新纪元
运维·服务器·音视频·webrtc·p2p·智能硬件·视频监控
X@AKS14 小时前
http 响应码影响 video 标签播放视频
网络协议·http·音视频
深耕AI16 小时前
使用DeepSeek自动获取视频双语字幕srt文件【工具说明】
音视频·deepseek
科技小E16 小时前
EasyRTC:智能硬件适配,实现多端音视频互动新突破
网络协议·安全·小程序·音视频·webrtc·p2p·视频监控