pytorch对音频数据的读取和保存

torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
瑞华丽PLM8 分钟前
守住数字化的胜算:PLM项目实施风险控制全景方案
大数据·人工智能·plm·国产plm·瑞华丽plm·瑞华丽
恋猫de小郭11 分钟前
Claude Code 已经 100% 自己写代码,为什么 Anthropic 还有上百个工程职位空缺?
前端·人工智能·ai编程
董厂长20 分钟前
用 LangGraph 实现 Small-to-Big 分块检索策略
人工智能·算法·rag
大江东去浪淘尽千古风流人物22 分钟前
【Sensor】IMU传感器选型车轨级 VS 消费级
人工智能·python·算法·机器学习·机器人
jay神40 分钟前
基于 YOLOv11 的人脸表情识别系统
人工智能·深度学习·yolo·目标检测·计算机视觉
2501_9479082040 分钟前
试了一下 MaiHH Conn
人工智能
byzh_rc42 分钟前
[深度学习网络从入门到入土] 含并行连结的网络GoogLeNet
网络·人工智能·深度学习
ICscholar42 分钟前
具身智能‘Affordance‘理解
人工智能·学习·算法
yhdata43 分钟前
3.6%年复合增速定调!雾化片赛道未来六年发展路径清晰,潜力稳步释放
大数据·人工智能
乾元44 分钟前
对抗性攻击:一张贴纸如何让自动驾驶视觉系统失效?
运维·网络·人工智能·安全·机器学习·自动驾驶