字幕切分视频

Whisper

仓库地址:

https://github.com/openai/whisper

可用模型信息:

测试视频:18段,总共447S视频(11段前:有11段开头有停顿的视频)

Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。

Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。

WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。

开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。

有的人,在静默的时候还咧嘴笑一笑

一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。

WhisperX误差统计(单位:秒):

总结:1)WhisperX会在视频停顿空语音前,比label都早停顿。缺点:一句话后几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:没语音了,嘴没闭的情况可以解决;

2)WhisperX会在视频停顿空语音后,比label都晚停顿。缺点:一句话开头几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:说话前,嘴动了,却还没发出声的情况,过滤掉。

whisperX

牛津大学的博士生Max Bain开源的模型

https://github.com/m-bain/whisperX

效果如上表所示,很好。

WhisperX accepted at INTERSPEECH 2023

达摩院语音团队Paraformer

https://github.com/alibaba-damo-academy/FunASR

效果:

即:每个字都有start 和end时间戳,没有断句的功能

飞书秒记

https://www.feishu.cn/product/minutes

只有字幕,没有时间戳

相关推荐
sunrise_ccx2 小时前
避坑ffmpeg直接获取视频fps不准确
ffmpeg·音视频
EasyNTS14 小时前
H5流媒体播放器EasyPlayer.js网页直播/点播播放器如果H.265视频在播放器上播放不流畅,可以考虑的解决方案
javascript·音视频·h.265
小gpt&14 小时前
实现qt拖拽显示或者播放
数据库·qt·音视频
EasyCVR17 小时前
ISUP协议视频平台EasyCVR萤石设备视频接入平台银行营业网点安全防范系统解决方案
大数据·人工智能·物联网·安全·音视频·监控视频接入
Black蜡笔小新19 小时前
H.265流媒体播放器EasyPlayer.js网页全终端安防视频流媒体播放器可以播放本地视频吗
javascript·音视频·h.265
菊风 Juphoon19 小时前
菊风视频能力平台开发服务正式入驻华为云云商店,成为华为云联营联运合作伙伴
华为云·音视频
无法雾题啊20 小时前
视频偏黄怎么调色?去黄提亮视频的方法
音视频·视频编解码
内核工匠21 小时前
WebRTC音视频同步原理与实现详解(上)
音视频·webrtc
mo477621 小时前
webrtc音频模块介绍(二) ADM
音视频·webrtc
索迪迈科技1 天前
渣土车治理新方案:智能化引领安全与环保新时代
人工智能·安全·音视频·视频监控·车载监控·车辆安全