制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

1. 搜索关键字获取音视频链接

python 复制代码
if __name__ == "__main__":
    
    with sync_playwright() as playwright:
        searcher = BLVideoSearch(playwright, headless=True)
        url = searcher.make_url(keyword=["小学公开课"])
        searcher.run(url, outfile="videos_url.txt")

得到链接列表

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件

ffmpeg: 将视频实时转音频

subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

python 复制代码
command = [YOUGET, "-o", self.video_dir, "-O", utt, task]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

python 复制代码
command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:

最终保存为音频文件

3. 使用whisper进行断句和语音识别

相关推荐
EasyCVR13 分钟前
EasyCVR视频融合技术在粮仓智能监管系统中的应用设计与实现
音视频
_OP_CHEN44 分钟前
【从零开始的Qt开发指南】(二十二)Qt 音视频开发宝典:从音频播放到视频播放器的实战全攻略
开发语言·c++·qt·音视频·前端开发·客户端开发·gui开发
EVERSPIN1 小时前
语音识别IC分类,语音识别芯片的工作原理
人工智能·语音识别·语音识别芯片·语音识别ic·语音识别芯片ic芯片
美狐美颜sdk1 小时前
全局美颜SDK开发方案:直播平台如何实现系统级美颜
人工智能·音视频·美颜sdk·视频美颜sdk·美狐美颜sdk
知识图谱LLM3 小时前
【关于多模态情感识别数据集的报告】
人工智能·自然语言处理·语音识别
阿正的梦工坊6 小时前
使用豆包多模态API(doubao-seed-1-8模型)分析小红书视频内容pyhton代码
人工智能·音视频
CoookeCola6 小时前
新一代 AI 模型与多模态 Agent 项目(2026/01/14近期)
人工智能·计算机视觉·ai作画·开源·音视频
EasyCVR7 小时前
基于视频融合平台EasyCVR的变电站智慧消防远程监控系统设计与实现
音视频
智算菩萨7 小时前
FFMpeg全解析:从“万能媒体转换器”到工程化音视频管线的底层逻辑
ffmpeg·音视频·媒体
知南x7 小时前
【物联网视频监控系统----韦东山老师视频总结】(1) 视频总览
音视频