字幕切分视频

Whisper

仓库地址:

https://github.com/openai/whisper

可用模型信息:

测试视频:18段,总共447S视频(11段前:有11段开头有停顿的视频)

Tiny: 跑完:142S ,11段前,对0段,18段中,对10段,5段后,对5段。

Large:跑完:941S,11段前,对0段,18段中,对2段,5段后,对4段。

WhisperX:跑完:143S ,11段前,对10段,18段中,对17段,5段后,对5段。

开口说话到,发出音,大概有13,14,12,20,帧左右的误差,也就是说有0.8S左右的误差,所以建议,如果取无声音频,end要往前挪10帧。

有的人,在静默的时候还咧嘴笑一笑

一句话说完,从没有声音到完全闭上嘴,大概有5帧,8帧,10帧左右,大概有0.4S左右的误差。

WhisperX误差统计(单位:秒):

总结:1)WhisperX会在视频停顿空语音前,比label都早停顿。缺点:一句话后几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:没语音了,嘴没闭的情况可以解决;

2)WhisperX会在视频停顿空语音后,比label都晚停顿。缺点:一句话开头几个字可能被裁减掉,对我们的影响是浪费不到1秒的原数据。优点:说话前,嘴动了,却还没发出声的情况,过滤掉。

whisperX

牛津大学的博士生Max Bain开源的模型

https://github.com/m-bain/whisperX

效果如上表所示,很好。

WhisperX accepted at INTERSPEECH 2023

达摩院语音团队Paraformer

https://github.com/alibaba-damo-academy/FunASR

效果:

即:每个字都有start 和end时间戳,没有断句的功能

飞书秒记

https://www.feishu.cn/product/minutes

只有字幕,没有时间戳

相关推荐
Ghost Face...5 分钟前
Linux音频控制神器:amixer完全指南
linux·chrome·音视频
八月的雨季 最後的冰吻9 分钟前
FFmepg--28- 滤镜处理 YUV 视频帧:实现上下镜像效果
ffmpeg·音视频
aqi002 小时前
FFmpeg开发笔记(九十二)基于Kotlin的开源Android推流器StreamPack
android·ffmpeg·kotlin·音视频·直播·流媒体
Together_CZ3 小时前
Cambrian-S: Towards Spatial Supersensing in Video——迈向视频中的空间超感知
人工智能·机器学习·音视频·spatial·cambrian-s·迈向视频中的空间超感知·supersensing
Android系统攻城狮3 小时前
Android16音频之设置音频属性AudioTrack.Builder().setAudioAttributes:用法实例(一百一十九)
音视频·android16·音频进阶
空影星3 小时前
轻量日记神器RedNotebook,高效记录每一天
python·数据挖掘·数据分析·音视频
Black蜡笔小新3 小时前
视频汇聚平台EasyCVR赋能石油管道计量站精准监控与安全管理
安全·音视频
马剑威(威哥爱编程)13 小时前
鸿蒙6开发视频播放器的屏幕方向适配问题
java·音视频·harmonyos
万能的小裴同学18 小时前
Android M3U8视频播放器
android·音视频
音视频牛哥18 小时前
轻量级RTSP服务的工程化设计与应用:从移动端到边缘设备的实时媒体架构
人工智能·计算机视觉·音视频·音视频开发·rtsp播放器·安卓rtsp服务器·安卓实现ipc功能