使用 Lhotse 高效管理音频数据集

Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。

主要目标:

  1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。

  2. 为有经验的 Kaldi 用户提供富有表现力的命令行接口。

  3. 为常用的语料库提供标准的数据准备方案。

  4. 为与语音和音频相关的任务提供 PyTorch 数据集类。

  5. 通过音频剪辑的概念实现模型训练中的灵活数据准备。

  6. 提高效率,特别是在 I/O 带宽和存储容量方面。

使用 Lhotse 对数据集结构化抽象、存储和转换成 PyTorch 数据管道,可以很方便实现语音识别和语音合成工程项目。

无论是音频大文件和小文件,都可以使用 cut 来有效表达:

Lhotse 支持了近百个数据集,开箱即用,新的数据集可参考这些例子来完成。

操作数据集也很方便

很方便地与 PyTorch 集成

Lhotse 的可扩展性

除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。

对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。

此外,尽管 Lhotse 提供了命令行工具,但缺乏 web 工具去分析数据集、样例数据。

依赖 Lhotse 的项目

参考资料:

相关推荐
亿牛云爬虫专家5 小时前
小红书视频图文提取:采集+CV的实战手记
音视频·爬虫代理·短视频·代理ip·品牌营销·小红书·热点分析
摆渡搜不到你7 小时前
某腾X视频下载器2.1
python·音视频
小草cys11 小时前
使用 Coze 工作流一键生成抖音书单视频:全流程拆解与技术实现
人工智能·音视频·工作流·coze
Jack1530276827918 小时前
GC1808:高性能音频ADC的卓越之选
单片机·嵌入式硬件·音视频·医疗器械·电动工具·家电产品
想躺在地上晒成地瓜干18 小时前
树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频
linux·网络·音视频·树莓派·raspberrypi·树莓派教程
追随远方19 小时前
Android高性能音频与图形开发:OpenSL ES与OpenGL ES最佳实践
android·elasticsearch·音视频
Sleepless_斑马19 小时前
【FFmpeg学习(2)】视频概念
学习·ffmpeg·音视频
加油搞钱加油搞钱20 小时前
鹰盾加密器基于AI的视频个性化压缩技术深度解析:从智能分析到无损压缩实践
人工智能·音视频·视频加密·鹰盾加密·鹰盾播放器
9527华安1 天前
国产安路FPGA实现图像视频采集转HDMI输出,提供5套TD工程源码和技术支持
fpga开发·音视频·安路·安路fpga·tangdynasty
深圳市青牛科技实业有限公司 小芋圆1 天前
GC1809:高性能音频接收与转换芯片
科技·单片机·嵌入式硬件·音视频·智能家居·新能源