制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

1. 搜索关键字获取音视频链接

python 复制代码
if __name__ == "__main__":
    
    with sync_playwright() as playwright:
        searcher = BLVideoSearch(playwright, headless=True)
        url = searcher.make_url(keyword=["小学公开课"])
        searcher.run(url, outfile="videos_url.txt")

得到链接列表

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件

ffmpeg: 将视频实时转音频

subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

python 复制代码
command = [YOUGET, "-o", self.video_dir, "-O", utt, task]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

python 复制代码
command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:

最终保存为音频文件

3. 使用whisper进行断句和语音识别

相关推荐
沐欣工作室_lvyiyi8 小时前
基于窗函数法的FIR滤波器设计(论文+源码)
人工智能·matlab·毕业设计·语音识别·fir滤波器
深圳市友昊天创科技有限公司8 小时前
友昊天创推出延长器方案GSV5600+HDBase VS010**/VS100**
音视频·实时音视频·视频编解码
线束线缆组件品替网8 小时前
Stewart Connector RJ45 以太网线缆高速接口设计解析
服务器·网络·人工智能·音视频·硬件工程·材料工程
IT陈图图9 小时前
构建跨端视频播放器中的“推荐视频”模块:Flutter × OpenHarmony 实战解析
flutter·音视频·鸿蒙·openharmony
IT陈图图9 小时前
Flutter × OpenHarmony 跨端视频播放器实战:自定义视频控制栏设计与实现
flutter·音视频·鸿蒙·openharmony
东华果汁哥9 小时前
【机器视觉 视频截帧算法】OpenCV 视频截帧算法教程
opencv·算法·音视频
美狐美颜sdk21 小时前
人脸美型美颜SDK在直播平台中的实现方式与开发策略
人工智能·音视频·美颜sdk·视频美颜sdk·美狐美颜sdk
yun68539921 天前
音视频简单搭建livekit环境并初步认识
音视频·livekit
LUCIFER1 天前
学习随笔:摄像头采集数据后进行视频编解码的常见概念与疑问
学习·音视频
Elastic 中国社区官方博客1 天前
使用 Elastic Agent Builder 构建语音 agents
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·语音识别