PyTorch基于深度神经网络的语音情绪识别

【图书推荐】《PyTorch语音识别实战》-CSDN博客

《PyTorch语音识别实战(人工智能技术丛书)》(王晓华)【摘要 书评 试读】- 京东图书 (jd.com)

情绪数据的获取与标签的说明

首先是语音情绪数据集的下载,在这里使用瑞尔森情感语音和歌曲视听数据集(RAVDESS)。RAVDESS语音数据集包含1440个文件,覆盖两种不同类型的数据:演讲和歌曲。这个数据集由24名专业演员(12名女性,12名男性)录制。言语情绪包括中性、平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶等8种情绪。每种情绪都包含两种情绪强度(正常、强烈)。

读者可以自行下载RAVDESS数据集,在这里使用Audio_Speech_Actors_01-24.zip这个子数据集进行情感分类,其结构如图5-4所示。

下面讲解情绪文件的标签问题。这个数据包含中性、平静、快乐、悲伤、愤怒、恐惧、厌恶、惊讶8种情感,本项目只使用里面的Audio_Speech_Actors_01-24.zip数据集,说话的语句只有Kids are talking by the door和Dogs are sitting by the door。这一点请读者注意。

情绪数据集的读取

下面对情绪数据集进行读取,在读取之前需要注意,每个文件都存放在不同的文件夹中,而每个文件夹也有若干不同的情绪文件。因此,在读取时需要首先完成文件夹的读取函数:

import numpy as np
import torch
import os
import librosa as lb
import soundfile

# 列出所有目录下文件夹的函数
def list_folders(path):
    """
    列出指定路径下的所有文件夹名
    """
    folders = []
    for root, dirs, files in os.walk(path):
        for dir in dirs:
            folders.append(os.path.join(root, dir))
    return folders

def list_files(path):
    files = []
    for item in os.listdir(path):
        file = os.path.join(path, item)
        if os.path.isfile(file):
            files.append(file)
    return files

由于这里是对音频进行读取,我们在第4章对音频数据降维的时候完成了基于Librosa库的音频读取和转换,读者可以直接使用其代码,如下:

#注意采样率的变更
def audio_features(wav_file_path, mfcc = True, chroma = False, mel = False,sample_rate = 22050):
    audio,sample_rate =  lb.load(wav_file_path,sr=sample_rate)
    if len(audio.shape) != 1:
        return None
    result = np.array([])
    if mfcc:
        mfccs = np.mean(lb.feature.mfcc(y=audio, sr=sample_rate, n_mfcc=40).T, axis=0)
        result = np.hstack((result, mfccs))
    if chroma:
        stft = np.abs(lb.stft(audio))
        chroma = np.mean(lb.feature.chroma_stft(S=stft, sr=sample_rate).T, axis=0)
        result = np.hstack((result, chroma))
    if mel:
        mel = np.mean(lb.feature.melspectrogram(y=audio, sr=sample_rate, n_mels=40, fmin=0, fmax=sample_rate//2).T, axis=0)
        result = np.hstack((result, mel))
    # print("file_title: {}, result.shape: {}".format(file_title, result.shape))
    return result

这里需要注意的是,由于读取的是不同数据集,而采样率会跟随数据集的不同而变化,因此这里的采样率设置为22 050。

下面展示了完整的数据读取代码。为了便于理解,我们对每种情绪做了文字定义,并将这些定义与相应的情绪序号进行关联。需要注意的是,在前面的讲解中,情绪序号是排在文件名的第三个位置的数据。因此,我们可以通过对文件名进行文本分割提取出情绪序号,并根据序号与情绪的对应关系读取并理解相应情绪的标签。代码如下:

ravdess_label_dict = {"01": "neutral", "02": "calm", "03": "happy", "04": "sad", "05": "angry", "06": "fear", "07": "disgust", "08": "surprise"}

folders = list_folders("./dataset")
label_dataset = []
train_dataset =  []
for folder in  folders:
    files = list_files(folder)
    for _file in files:

        label = _file.split("\\")[-1].replace(".wav","").split("-")[2]
        ravdess_label = ravdess_label_dict[label]
        label_num = int(label) -1 #这里减1是由于初始位置是1,而一般列表的初始位置是0

        result = audio_features(_file)
        train_dataset.append(result)
        label_dataset.append(label_num)

train_dataset = torch.tensor(train_dataset,dtype=torch.float)
label_dataset = torch.tensor(label_dataset,dtype=torch.long)

print(train_dataset.shape)
print(label_dataset.shape)

最终的打印结果是将训练数据和label数据转换为torch的向量,代码如下:

torch.Size([1440,40])
torch.Size([1440])

在这里只使用了MFCC的特征作为音频特征,而对于其他特征读者可以自行尝试。特别需要注意的是,这里MFCC的维度是40,这与后续模型的输入维度相同。当改变输入特征的长度后,后续的模型维度也要变化。

基于深度神经网络示例的模型设计和训练

本小节讲解情绪模型的设计和训练。在这里我们可以直接使用在5.1.2节中定义的深度神经网络示例框架,基于其实现模型的训练。完整代码如下:

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
class DNN(torch.nn.Module):
    def __init__(self, input_size = 40, hidden_size = 128, output_size = 8):
        super(DNN, self).__init__()
        self.hidden = torch.nn.Linear(input_size, hidden_size)
        self.relu = torch.nn.ReLU()
        self.output = torch.nn.Linear(hidden_size, output_size)

    def forward(self, x):
        x = self.hidden(x)
        x = self.relu(x)
        x = self.output(x)
        return x

# 准备数据
import get_data
train_data = get_data.train_dataset.to("cuda")
train_labels = get_data.label_dataset.to("cuda")
train_num = 1440

# 初始化模型和优化器
model = DNN().to("cuda")
optimizer = optim.Adam(model.parameters(), lr=1E-4)
criterion = nn.CrossEntropyLoss()

# 训练模型,由于数据较少,这里一次性读取数据
for epoch in range(1024):
    optimizer.zero_grad()
    outputs = model(train_data)
    loss = criterion(outputs, train_labels)
    loss.backward()
    optimizer.step()

    if (epoch+ 1)%10 == 0:
        accuracy = (outputs.argmax(1) == train_labels).type(torch.float32).sum().item() / train_num
        print("epoch:",epoch,"train_loss:", (loss),"accuracy:",(accuracy))
        print("-------------")

在训练循环中,每次迭代都先将梯度清零,然后计算模型的输出。接着计算损失值,并进行反向传播和参数更新。每10个epoch打印一次训练损失和准确率,结果如下所示。

...
epoch: 999 train_loss: tensor(1.5577, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.42569444444444443
-------------
epoch: 1009 train_loss: tensor(1.5536, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.4270833333333333
-------------
epoch: 1019 train_loss: tensor(1.5495, device='cuda:0', 
grad_fn=<NllLossBackward0>) accuracy: 0.4305555555555556
-------------
相关推荐
YSGZJJ10 分钟前
股指期货的套保策略如何精准选择和规避风险?
人工智能·区块链
无脑敲代码,bug漫天飞12 分钟前
COR 损失函数
人工智能·机器学习
HPC_fac130520678161 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
小陈phd4 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao5 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
ZHOU_WUYI9 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1239 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界9 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221519 小时前
机器学习系列----关联分析
人工智能·机器学习
Robot2519 小时前
Figure 02迎重大升级!!人形机器人独角兽[Figure AI]商业化加速
人工智能·机器人·微信公众平台