使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。

主要目标:

  1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

  2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

  3. 为常用的语料库提供标准的数据准备方案。

  4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

  5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

  6. 提高效率,特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道,可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件,都可以使用 cut 来有效表达:

Lhotse 支持了近百个数据集,开箱即用,新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。

对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外,尽管 Lhotse 提供了命令行工具,但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

参考资料:

相关推荐
爱吃骨头的鱼儿3 分钟前
aac音频
音视频·aac
超哥--28 分钟前
B站视频内容智能分析系统(十):踩坑记录与性能优化
性能优化·音视频·ai编程
换个昵称都难1 小时前
webrtc 音频混音介绍
音视频·webrtc
“码”力全开1 小时前
统一解耦海量设备:基于 Docker 与边缘计算的 GB28181/RTSP 视频中台全协议兼容架构解析(附源码交付)
docker·音视频·边缘计算
爱睡懒觉的焦糖玛奇朵1 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具Dataset Cleaner】
人工智能·python·学习·算法·yolo·音视频
俊哥工具1 小时前
027免费开源硬盘检测工具,一键查看健康度,杜绝数据丢失
pdf·电脑·word·excel·音视频
电商API_1800790524711 小时前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
hz5678912 小时前
国产化视频会议系统怎么做?鲲鹏+麒麟+国密的完整国产化路径
音视频·实时音视频·信息与通信
Code-keys16 小时前
ARM NEON SIMD 编程实战:从音频信号处理到AI算子研发实战
arm开发·音视频·信号处理
dualven_in_csdn18 小时前
一键起飞条件分析
音视频