pytorch对音频数据的读取和保存

  torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

  通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

  torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

  torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
H Journey10 小时前
音视频原理
音视频·h264
FluxArt10 小时前
Nano Banana 2 怎么用?14 种宽高比 + 4K 出图完整步骤
人工智能
仙草不加料10 小时前
第 20 讲:如何把 AI 接入你的日报周报体系
人工智能·ai编程·工作流·程序员效率·ai 提效·日报周报
Robot_Nav10 小时前
MPPI 局部规划器实验设计讲解
人工智能·算法·mppi
Geeys10 小时前
淘宝电商运营新手入门完整教程|零基础开店引流
大数据·网络·人工智能
Try_again_110 小时前
WorkBuddy 卸载重装+数据迁移全记录:用 Junction 解决工作空间路径锁定问题
人工智能·ai·腾讯云
Vodka~10 小时前
WSL2 + RViz GPU渲染机械臂
人工智能·python
Mister Leon10 小时前
模型端侧部署之 Nvidia Orin 异构硬件调度
人工智能
Python私教10 小时前
DocsGPT 开源二开第一步:如意知识库工厂怎么换脸?
人工智能
林中青木10 小时前
OpenCV 5.0 使用方法及注意事项
人工智能·opencv·计算机视觉