使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。

主要目标:

  1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

  2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

  3. 为常用的语料库提供标准的数据准备方案。

  4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

  5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

  6. 提高效率,特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道,可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件,都可以使用 cut 来有效表达:

Lhotse 支持了近百个数据集,开箱即用,新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。

对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外,尽管 Lhotse 提供了命令行工具,但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

参考资料:

相关推荐
寒寒_4 小时前
uni-app 中封装全局音频播放器
uni-app·音视频
EasyGBS4 小时前
国标GB28181视频平台EasyCVR实用方案:如何实现画面拉伸
人工智能·音视频
智联视频超融合平台8 小时前
慧港口新纪元:视频监控联网平台赋能高效安全运营
网络·网络协议·音视频·实时音视频·视频编解码
群联云防护小杜12 小时前
云服务器主动防御策略与自动化防护(下)
运维·服务器·分布式·安全·自动化·音视频
带娃的IT创业者18 小时前
《AI大模型应知应会100篇》第39篇:多模态大模型应用:文本、图像和音频的协同处理
人工智能·microsoft·音视频
18538162800余--20 小时前
短视频矩阵系统可视化剪辑功能开发,支持OEM
线性代数·矩阵·音视频
浮桥20 小时前
uniapp -- 实现微信小程序、app、H5端视频上传
微信小程序·uni-app·音视频
EasyDSS1 天前
EasyCVR视频汇聚平台助力大型生产监控项目摄像机选型与应用
网络·人工智能·音视频
科技小E1 天前
EasyRTC嵌入式音视频通信SDK智能安防与监控系统的全方位升级解决方案
大数据·网络·人工智能·音视频
18538162800余--1 天前
短视频矩阵系统贴牌批量剪辑功能开发,支持OEM
线性代数·矩阵·音视频