NVSpeech_170k 数据集音频提取处理

先从 hugging face 上进行下载:https://huggingface.co/datasets/Hannie0813/NVSpeech170k,然后通过一下脚本提取音频和文本,方便后续处理。

python 复制代码
import os

from datasets import load_dataset
import soundfile as sf
from tqdm import tqdm

# --- 1. 配置参数 ---

# 【【【 请在这里修改为您本地的数据集路径 】】】
# 这个路径应该是包含 .arrow 文件和 dataset_info.json 的文件夹。
# 例如: "D:\\my_hf_datasets\\Hannie0813___NVSpeech170k"
# 或者: "/home/user/.cache/huggingface/datasets/Hannie0813___NVSpeech170k/default/0.0.0/..."
LOCAL_DATASET_PATH = "./xxx/NVSpeech_170k" # <--- !!! 修改这里 !!!

# 您要使用的分割(通常是 'train')
DATA_SPLIT = "train"
# 保存文件的输出文件夹名称
OUTPUT_DIR = "extract_audio"


def main():
    """
    主函数:从本地文件夹加载Hugging Face数据集,并将音频和文本提取出来。
    """
    # --- 2. 检查本地路径配置 ---
    if LOCAL_DATASET_PATH == "/path/to/your/local/dataset_folder":
        print("错误:请先在脚本中修改 'LOCAL_DATASET_PATH' 变量,将其指向您本地的数据集文件夹。")
        return

    if not os.path.isdir(LOCAL_DATASET_PATH):
        print(f"错误:指定的本地路径 '{LOCAL_DATASET_PATH}' 不是一个有效的文件夹,请检查。")
        return
        
    print(f"将从本地路径加载数据集: '{LOCAL_DATASET_PATH}'")
    print("-" * 30)

    # --- 3. 创建输出文件夹 ---
    print(f"准备将文件保存到 '{OUTPUT_DIR}/' 文件夹中...")
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    print("文件夹准备就绪。")
    print("-" * 30)

    # --- 4. 从本地加载数据集 ---
    print("开始加载数据集...")
    try:
        # 直接将本地文件夹路径传给 load_dataset
        dataset = load_dataset(LOCAL_DATASET_PATH)
        print("数据集从本地加载成功!")
        print(dataset.keys())
    except Exception as e:
        print(f"错误:数据集加载失败。请确保指定的路径是正确的数据集缓存文件夹。")
        print(f"详细错误信息: {e}")
        return
    
    print("-" * 30)

    # --- 5. 遍历数据集并保存文件 ---
    # 选择我们想要处理的数据分割
    if DATA_SPLIT not in dataset:
        print(f"错误:在数据集中找不到名为 '{DATA_SPLIT}' 的分割。可用的分割有: {list(dataset.keys())}")
        return
        
    data_split = dataset[DATA_SPLIT]
    
    print(f"开始处理 '{DATA_SPLIT}' 分割中的 {len(data_split)} 条数据...")
    
    # 使用 tqdm 创建一个进度条
    for idx, sample in enumerate(data_split):
        print('sample: ', sample.keys())
        try:
            # 从样本字典中提取信息
            audio_info = sample['wav']
            text_content = sample['txt']
            file_id = str(idx).zfill(5)

            # 提取音频数据和采样率
            audio_array = audio_info['array']
            sampling_rate = audio_info['sampling_rate']

            # 定义输出文件路径
            wav_path = os.path.join(OUTPUT_DIR, f"{file_id}.wav")
            txt_path = os.path.join(OUTPUT_DIR, f"{file_id}.txt")

            # 保存文件
            sf.write(wav_path, audio_array, sampling_rate)
            with open(txt_path, 'w', encoding='utf-8') as f:
                f.write(text_content)

        except Exception as e:
            print(f"\n处理样本 {sample.get('id', '未知ID')} 时出错: {e}")

    print("-" * 30)
    print("所有文件提取完成!")
    print(f"请在 '{os.path.abspath(OUTPUT_DIR)}' 文件夹中查看结果。")

if __name__ == "__main__":
    main()
相关推荐
草莓熊Lotso10 小时前
Linux 文件描述符与重定向实战:从原理到 minishell 实现
android·linux·运维·服务器·数据库·c++·人工智能
Coder_Boy_11 小时前
技术发展的核心规律是「加法打底,减法优化,重构平衡」
人工智能·spring boot·spring·重构
会飞的老朱13 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º15 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee17 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º18 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys18 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_567818 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子18 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能18 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算