使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。

主要目标:

  1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

  2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

  3. 为常用的语料库提供标准的数据准备方案。

  4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

  5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

  6. 提高效率,特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道,可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件,都可以使用 cut 来有效表达:

Lhotse 支持了近百个数据集,开箱即用,新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。

对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外,尽管 Lhotse 提供了命令行工具,但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

参考资料:

相关推荐
小小测试开发12 小时前
Playwright进阶:录制视频与追踪功能,让自动化过程“看得见、可分析”
自动化·音视频
开开心心就好14 小时前
微软官方出品:免费数据恢复工具推荐
网络·笔记·microsoft·pdf·word·音视频·symfony
懷淰メ15 小时前
python3GUI--短视频社交软件 By:Django+PyQt5(前后端分离项目)
后端·python·django·音视频·pyqt·抖音·前后端
小马过河R15 小时前
AIGC首帧图尾帧图生成视频案例教程
aigc·音视频·ai视频
causaliy15 小时前
实践六:防盗链知识点——视频
爬虫·音视频
戴草帽的大z15 小时前
使用V4L2工具验证RK3588平台视频设备节点数据有效性
ffmpeg·音视频·rk3588·nv12·v4l2-ctl
音视频牛哥16 小时前
从 RTSP/RTP/RTCP 到系统级时间闭环:跨平台低延迟RTSP播放架构解析
计算机视觉·机器人·音视频·rtsp播放器·linux rtsp播放器·windows rtsp播放器·安卓播放rtsp流
电子科技圈17 小时前
XMOS与飞腾云联袂以模块化方案大幅加速音频产品落地
经验分享·嵌入式硬件·mcu·自然语言处理·音视频·腾讯会议·游戏机
美摄科技17 小时前
H5短视频SDK,赋能Web端视频创作革命
前端·音视频
Tracy97317 小时前
XMSRC4194_VC1:4通道192KHz ASRC音频采样率转换器产品介绍
嵌入式硬件·音视频·智能硬件·xmos模组固件