pytorch对音频数据的读取和保存

torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
wltx16886 分钟前
谷歌SEO+外贸版GEO优化步骤?
人工智能·python
龙腾AI白云7 分钟前
智能体如何配知识库?
人工智能·机器学习·数据挖掘
IT_陈寒20 分钟前
Vue的响应式把我坑惨了,原来问题出在这
前端·人工智能·后端
key_3_feng24 分钟前
ADI边缘AI开发板MAX78000FTHR开发实战:从零开始点亮LED
人工智能·开发板
胡志辉的博客27 分钟前
多智能体协作,不是多开几个 Agent:从中介者模式看 OpenClaw 和 Hermes Agent
人工智能·设计模式·ai·agent·中介者模式·openclaw·herman
QQ6765800838 分钟前
智慧工厂之扬尘识别 铲车装载识别 工程重型机械识别 磁铁识别 深度学习YOLO格式图像识别第10435期
人工智能·深度学习·yolo·扬尘识别·铲车装载·工程重型机械·磁铁识别
Raink老师42 分钟前
【AI面试临阵磨枪】KV Cache 是什么?为什么能加速推理?如何实现?
人工智能·ai 面试
newsxun1 小时前
第十六届北京国际电影节东郎分会场启幕
人工智能
大嘴皮猴儿1 小时前
从零开始学商品图翻译:小白也能快速掌握的多语言文字处理与上架技巧
大数据·ide·人工智能·macos·新媒体运营·xcode·自动翻译
大黄说说1 小时前
AI大模型对内容创作的颠覆:机遇、版权争议与行业新规则
人工智能