使用Python对音频进行特征提取(二)

在几年前写的使用Python对音频进行特征提取使用的是人为特征的方法进行特征提取的,近些年随着深度学习的普及,这里尝试使用深度学习方法进行特征提取。

数据集测试

之前的数据集找不到了,这个数据其实是kaggle的一个数据:www.kaggle.com/datasets/ca...

也可以在百度云下载链接: pan.baidu.com/s/177E_2VhN... 提取码: c5nh

音频特征提取

相比传统的方法一堆特征筛选,深度学习这里其实就是一个黑盒。

这里使用了一个音频编码器模型:teticio/audio-encoder

This model encodes audio files into vectors of 100 dimensions. It was trained on a million Spotify playlists and tracks. The details can be found here.

也就是输入一个audio文件名,可以转为100维的特征向量。

css 复制代码
from audiodiffusion.audio_encoder import AudioEncoder

audio_encoder = AudioEncoder.from_pretrained("teticio/audio-encoder")
audio_encoder.encode(["./genres/blues/blues.00043.au"]).numpy()[0].tolist()

可以看到这里把音频直接编码特征了。

然后把所有的数据都转成100维,构成数据集。

py 复制代码
import numpy as np
import os

genres = 'blues classical country disco hiphop jazz metal pop reggae rock'.split()

data_set = []
label_set = []

label2id = {genre:i for i,genre in enumerate(genres)}
id2label = {i:genre for i,genre in enumerate(genres)}

print(label2id)

for g in genres:
    print(g)
    for filename in os.listdir(f'./genres/{g}/'):
        songname = f'./genres/{g}/{filename}'
        print(songname)
        data_set.append(audio_encoder.encode([songname]).numpy()[0].tolist())
        label_set.append(label2id[g])

然后简单的标准化一下。

ini 复制代码
from sklearn.preprocessing import StandardScaler
from keras.utils import to_categorical

scaler = StandardScaler()
X = scaler.fit_transform(np.array(data_set, dtype = float))
y = to_categorical(np.array(label_set))

可以看到这里有1000条数据,10个类别。

ini 复制代码
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

模型训练

这里模型训练和之前一样,先构建一个全连接模型。

css 复制代码
from keras import models
from keras.layers import Dense, Dropout

def create_model():
    model = models.Sequential()
    model.add(Dense(256, activation='relu', input_shape=(X_train.shape[1],)))
    model.add(Dense(128, activation='relu'))
    model.add(Dense(64, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(10, activation='softmax'))

    return model

model = create_model()

然后训练。

ini 复制代码
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
ini 复制代码
model.fit(X_train, y_train, epochs=50, batch_size=128)

最后进行测试。

scss 复制代码
test_loss, test_acc = model.evaluate(X_test,y_test)
print('test_acc: ',test_acc)

相比使用人工提取的特征,这次准度比之前的高一些。

相关推荐
Warren2Lynch6 小时前
利用 AI 协作优化软件更新逻辑:构建清晰的 UML 顺序图指南
人工智能·uml
ModelWhale6 小时前
当“AI+制造”遇上商业航天:和鲸助力头部企业,构建火箭研发 AI 中台
人工智能
ATMQuant7 小时前
量化指标解码13:WaveTrend波浪趋势 - 震荡行情的超买超卖捕手
人工智能·ai·金融·区块链·量化交易·vnpy
weixin_509138347 小时前
语义流形探索:大型语言模型中可控涌现路径的实证证据
人工智能·语义空间
多米Domi0117 小时前
0x3f第33天复习 (16;45-18:00)
数据结构·python·算法·leetcode·链表
soldierluo7 小时前
大模型的召回率
人工智能·机器学习
Gofarlic_oms17 小时前
Windchill用户登录与模块访问失败问题排查与许可证诊断
大数据·运维·网络·数据库·人工智能
童话名剑7 小时前
人脸识别(吴恩达深度学习笔记)
人工智能·深度学习·人脸识别·siamese网络·三元组损失函数
_YiFei7 小时前
2026年AIGC检测通关攻略:降ai率工具深度测评(含免费降ai率方案)
人工智能·aigc
freepopo7 小时前
天津商业空间设计:材质肌理里的温度与质感[特殊字符]
python·材质