pytorch对音频数据的读取和保存

torchaudio是PyTorch深度学习框架的一部分,主要用于处理和分析音频数据。它提供了丰富的音频信号处理工具、特征提取功能以及与深度学习模型结合的接口,使得在PyTorch中进行音频相关的机器学习和深度学习任务变得更加便捷。

通过使用torchaudio,开发者能够轻松地将音频数据转换为适合深度学习模型输入的形式,并利用PyTorch的高效张量运算和自动梯度功能进行训练和推理。此外,torchaudio还支持多声道音频处理和GPU加速,以满足不同应用场景的需求。

torchaudio.load读取音频文件:

python 复制代码
import torchaudio
file_path = "xx/xx.wav"
waveform, sr = torchaudio.load(file_path, normalize=True)

主要说明:

可以读取float32, int16, int32类型数据,返回的是torch.tensor类型的数据;

normalize=True时,返回的数据是归一化到(-1,1)的float32数据;

normalize=False时,返回的是float32、int16或者int32数据,具体需要看file_path本身是什么类型的音频数据;

normalize默认值为True。

torchaudio.save保存音频文件

python 复制代码
# out_path, 保存的音频文件路径,waveform保存的数据,sr是采样率
torchaudio.save(out_path, waveform, sr)

根据waveform的格式自动保存为float32、int16或者int32

相关推荐
千流出海几秒前
谷歌和苹果应用商店发现数十款AI去衣应用
人工智能
SelectDB技术团队5 分钟前
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
数据库·数据仓库·人工智能·ai·apache
AI浩5 分钟前
学习语言驱动的序列级别模态不变表示用于视频可见光-红外行人重识别
学习·音视频
橘子师兄7 分钟前
C++AI大模型接入SDK—Genimi接入封装
c++·人工智能·后端
向上的车轮7 分钟前
飞桨(PaddlePaddle):OCR识别原理
人工智能·ocr·paddlepaddle
njsgcs11 分钟前
langchain框架怎么让 Skills 与 MCP(tools)协同使用
人工智能·langchain·skills
newsxun11 分钟前
申晨案例解析:解码猫王如何从情怀走向现象级品牌的“熊猫罗盘”重塑之路
大数据·人工智能
拐爷14 分钟前
Vibe‑coding九阳神功之夯:Git 基础操作,AI 时代的刹车系统(附速查表)
人工智能·git
Ro Jace14 分钟前
Leveraging AI Algorithms for Electronic Warfare Data Processing
人工智能
总有刁民想爱朕ha14 分钟前
VisionForgeSDK:基于YOLOv8的新一代人工智能视觉检测解决方案
人工智能·yolo·视觉检测