制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

1. 搜索关键字获取音视频链接

python 复制代码
if __name__ == "__main__":
    
    with sync_playwright() as playwright:
        searcher = BLVideoSearch(playwright, headless=True)
        url = searcher.make_url(keyword=["小学公开课"])
        searcher.run(url, outfile="videos_url.txt")

得到链接列表

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件

ffmpeg: 将视频实时转音频

subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

python 复制代码
command = [YOUGET, "-o", self.video_dir, "-O", utt, task]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

python 复制代码
command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:

最终保存为音频文件

3. 使用whisper进行断句和语音识别

相关推荐
开开心心就好6 小时前
电子报纸离线保存:一键下载多报PDF工具
网络·笔记·macos·pdf·word·音视频·phpstorm
无敌最俊朗@6 小时前
视频容器(如 MP4)的作用:组织与同步
音视频
EVERSPIN8 小时前
什么是离线语音识别芯片(离线语音识别芯片有哪些优点)
人工智能·语音识别·语音识别芯片·离线语音识别芯片
Black蜡笔小新10 小时前
视频融合平台EasyCVR结合视频智能分析技术构建高空抛物智能监控系统,守护“头顶上的安全”
安全·音视频
EasyCVR10 小时前
如何基于视频融合平台EasyCVR实现全域轨迹跟踪,构建主动式安防新体系?
音视频
筑凡10 小时前
PPT+配音生成带旁白的PPT演示视频
powerpoint·音视频·wps·mp4·ppt
EasyGBS11 小时前
从“被动监控”到“主动预警”:EasyGBS远程视频监控方案助力企业高效安全运营
安全·音视频
huaweichenai12 小时前
如何实现html显示WebRTC视频监控流
音视频·webrtc
Likeadust12 小时前
视频直播点播平台EasyDSS:助力现代农业驶入数字科技“快车道”
人工智能·科技·音视频
长沙红胖子Qt13 小时前
案例分享:音视频录像综合应用(支持录制麦克风音频、录制摄像头视频、同步录制音视频,支持opencv对图形进行处理,录制mp4文件)
opencv·音视频·录音·音视频同步·录像·录像图像处理