pytorch对音频数据的读取和保存

torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
点云SLAM1 小时前
Eigen 中矩阵的拼接(Concatenation)与 分块(Block Access)操作使用详解和示例演示
人工智能·线性代数·算法·矩阵·eigen数学工具库·矩阵分块操作·矩阵拼接操作
木枷2 小时前
NAS-Bench-101: Towards Reproducible Neural Architecture Search
人工智能·物联网
BAOYUCompany3 小时前
暴雨服务器更懂人工智能+
运维·服务器·人工智能
飞哥数智坊3 小时前
Coze实战第17讲:工资条自动拆分+一对一邮件发送
人工智能·coze
cwn_3 小时前
自然语言处理NLP (1)
人工智能·深度学习·机器学习·自然语言处理
点云SLAM3 小时前
PyTorch中flatten()函数详解以及与view()和 reshape()的对比和实战代码示例
人工智能·pytorch·python·计算机视觉·3d深度学习·张量flatten操作·张量数据结构
智海观潮3 小时前
Unity Catalog与Apache Iceberg如何重塑Data+AI时代的企业数据架构
大数据·人工智能·ai·iceberg·catalog
爱分享的飘哥3 小时前
第三篇:VAE架构详解与PyTorch实现:从零构建AI的“视觉压缩引擎”
人工智能·pytorch·python·aigc·教程·生成模型·代码实战
柏峰电子4 小时前
市政道路积水监测系统:守护城市雨天出行安全的 “智慧防线”
大数据·人工智能·安全
蓑雨春归4 小时前
自主智能Agent如何重塑工作流自动化:技术、经济与未来展望
人工智能·chatgpt·自动化