制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

1. 搜索关键字获取音视频链接

python 复制代码
if __name__ == "__main__":
    
    with sync_playwright() as playwright:
        searcher = BLVideoSearch(playwright, headless=True)
        url = searcher.make_url(keyword=["小学公开课"])
        searcher.run(url, outfile="videos_url.txt")

得到链接列表

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件

ffmpeg: 将视频实时转音频

subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

python 复制代码
command = [YOUGET, "-o", self.video_dir, "-O", utt, task]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

python 复制代码
command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:

最终保存为音频文件

3. 使用whisper进行断句和语音识别

相关推荐
Black蜡笔小新5 小时前
视频汇聚平台EasyCVR打造校园消防智能监管新防线
网络·人工智能·音视频
咕噜企业分发小米12 小时前
腾讯云IM如何与第三方实时音频服务集成?
云计算·音视频·腾讯云
qwy71522925816315 小时前
3-用摄像头拍摄图像及视频
人工智能·opencv·音视频
Hi2024021716 小时前
Windows录制浏览器音视频
windows·音视频
weixin_4624462316 小时前
【Dify 实战】基于 Workflow + LLM 的智能语音合成(TTS)完整教程(支持情感 / 语速 / 自动语言)
人工智能·语音识别·coze·mcp
ShenZhenDingYue18 小时前
鼎跃安全丨“看得见 + 听得到”:太阳能语音监控杆电力防外破与森林防火
语音识别·森林防火·太阳能监控杆·太阳能语音监控杆·太阳能语音交互监控杆·高清视频监控·远程语音广播
Alaso_shuang18 小时前
音视频入门基础知识
音视频
Knight_AL19 小时前
Java + FFmpeg 实现视频分片合并(生成 list.txt 自动合并)
java·ffmpeg·音视频
纳祥科技20 小时前
NX6802,4路音频DAC芯片,具备90dB 动态范围 -90 dB THD+N
单片机·音视频
恒星科通20 小时前
校园广播系统:全场景校园音频解决方案
运维·服务器·安全·音视频·广播·应急广播