pytorch对音频数据的读取和保存

torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
zd2005721 分钟前
STREAMS指南:环境及宿主相关微生物组研究中的技术报告标准
人工智能·python·算法
weixin_409383123 分钟前
强化lora训练后的 用qwen训练的虚拟自己模型 这次挺好 数据总量300多条 加了十几条正常对话聊天记录
人工智能·深度学习·机器学习·训练模型
啊吧怪不啊吧4 分钟前
机器学习模型部署全流程实战:从训练完成到上线可用
大数据·人工智能·机器学习
其美杰布-富贵-李12 分钟前
PyTorch Optimizer 与 Scheduler 指南
人工智能·pytorch·python·优化·训练
vfvfb13 分钟前
音频批量加速 mp3批量加速1.5倍
音视频
Suahi13 分钟前
【HuggingFace LLM】经典NLP Tasks数据流转
人工智能·自然语言处理
ACP广源盛1392462567325 分钟前
GSV6701A@ACP#6701A产品规格详解及产品应用分享
网络·嵌入式硬件·音视频
西***634725 分钟前
破局信息孤岛 赋能城市智治——分布式可视化系统驱动智慧城市指挥中心升级
人工智能·分布式·智慧城市
zhaodiandiandian29 分钟前
AI智能体重构产业生态,从效率革命到体验升级
人工智能·microsoft
weixin_4093831230 分钟前
强化lora训练 这次好点 下次在训练数据增加正常对话
人工智能·深度学习·机器学习·qwen