制作语音数据集: 爬取B站音视频+基于whisper语音识别标注

本文以制作小学课堂音频数据集为例子

1. 搜索关键字获取音视频链接

python 复制代码
if __name__ == "__main__":
    
    with sync_playwright() as playwright:
        searcher = BLVideoSearch(playwright, headless=True)
        url = searcher.make_url(keyword=["小学公开课"])
        searcher.run(url, outfile="videos_url.txt")

得到链接列表

2. 批量下载和实时视频转音频

you-get: 根据链接下载视频文件

ffmpeg: 将视频实时转音频

subprocess: 通过子进程执行上述命令

2.1 多线程批量下载 (you-get)

you-get 子进程:

python 复制代码
command = [YOUGET, "-o", self.video_dir, "-O", utt, task]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

2.2 实时视频转音频

ffmpeg 子进程:

python 复制代码
command = [FFMPEG, "-i", video_file, '-ac', '1', '-ar', '16000', audio_file]
                    subprocess.run(command, check=True, stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)

下载视频文件信息如下:

最终保存为音频文件

3. 使用whisper进行断句和语音识别

相关推荐
三十_A13 小时前
前端技术分享:基于 Canvas 实现视频帧截取与下载方案
前端·音视频
地狱为王13 小时前
Unity使用NovaSR将沉闷的16kHz音频升频成清晰的48kHz音频
unity·游戏引擎·音视频·novasr
Su玊玊13 小时前
中文语音识别开源数据整理
人工智能·语音识别
DisonTangor13 小时前
通义实验室开源端到端语音识别大模型—— Fun-ASR-Nano-2512
人工智能·语音识别·xcode
新农仓13 小时前
5分钟部署Paraformer语音识别,离线转写带Gradio界面超简单
语音识别·gradio·asr·paraformer
Dreams°12313 小时前
进阶实战:Wan2.2-T2V-A5B 实现可点击跳转的互动式教育视频
算法·microsoft·ai·音视频
丹力13 小时前
如何高效实现中文语音识别?试试科哥定制版FunASR大模型镜像
语音识别·funasr·ai应用·星图gpu
晁好刚13 小时前
语音识别预处理利器,FSMN-VAD实测推荐
语音识别·vad·端点检测·fsmn-vad
一个无名的炼丹师13 小时前
ASR(语音识别)与TTS(文本转语音)技术深度解析与主流模型调用指南
人工智能·语音识别
开开心心_Every14 小时前
家长控制电脑软件:定时锁屏管理使用时长
网络协议·tcp/ip·游戏·微信·pdf·excel·语音识别