绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图librosa.display.specshow

`librosa.display.specshow` 是一个非常方便的函数,用于绘制音频信号的各种频谱图,包括Mel频谱图、STFT频谱图等。它不仅能够绘制频谱图,还能自动设置轴标签和刻度,使得生成的图像更加直观和易于理解。

函数签名

```python

librosa.display.specshow(data, x_coords=None, y_coords=None, x_axis=None, y_axis=None, sr=22050, hop_length=512, fmin=0, fmax=None, bins_per_octave=12, key='C:maj', ax=None, **kwargs)

```

参数说明

  • **`data`**:二维数组,表示频谱数据。例如,`librosa.feature.melspectrogram` 或 `librosa.stft` 的输出。

  • **`x_coords`**:一维数组,表示x轴的坐标。如果提供,`x_axis` 参数将被忽略。

  • **`y_coords`**:一维数组,表示y轴的坐标。如果提供,`y_axis` 参数将被忽略。

  • **`x_axis`**:字符串,指定x轴的类型。常见值包括:

  • `'time'`:时间轴(默认值)。

  • `'s'`:秒。

  • `'ms'`:毫秒。

  • `'lag'`:延迟轴。

  • `'lag_s'`:延迟轴(秒)。

  • `'lag_ms'`:延迟轴(毫秒)。

  • `'cqt_note'`:基于CQT的音符轴。

  • `'cqt_hz'`:基于CQT的频率轴。

  • `'chroma'`:音阶轴。

  • `'tonnetz'`:Tonnetz轴。

  • `'off'`:关闭x轴标签。

  • **`y_axis`**:字符串,指定y轴的类型。常见值包括:

  • `'linear'`:线性频率轴(默认值)。

  • `'log'`:对数频率轴。

  • `'mel'`:Mel频率轴。

  • `'cqt_note'`:基于CQT的音符轴。

  • `'cqt_hz'`:基于CQT的频率轴。

  • `'chroma'`:音阶轴。

  • `'off'`:关闭y轴标签。

  • **`sr`**:采样率,默认值为22050 Hz。

  • **`hop_length`**:帧移,默认值为512。

  • **`fmin`**:最小频率,默认值为0 Hz。

  • **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。

  • **`bins_per_octave`**:每八度的二进制数量,默认值为12。

  • **`key`**:键名,默认值为`'C:maj'`。

  • **`ax`**:`matplotlib`的轴对象,默认值为`None`。如果提供,将在指定的轴上绘制图像。

  • **`**kwargs`**:其他关键字参数,将传递给`matplotlib.pyplot.imshow`。

返回值

  • 返回一个`matplotlib.image.AxesImage`对象,表示绘制的图像。

示例代码

以下是一个完整的示例,展示如何使用`librosa.display.specshow`绘制Mel频谱图:

```python

import librosa

import librosa.display

import matplotlib.pyplot as plt

import numpy as np

加载音频文件

y, sr = librosa.load('example.wav', sr=16000)

计算Mel频谱

mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

log_mel = librosa.power_to_db(mel, ref=np.max)

绘制Mel频谱图

plt.figure(figsize=(10, 4))

librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')

plt.colorbar(label='Log Mel Spectrogram (dB)')

plt.xlabel('Time')

plt.ylabel('Mel Frequency')

plt.title('Mel Spectrogram')

plt.tight_layout()

plt.show()

```

详细解释

  1. **加载音频文件**

```python

y, sr = librosa.load('example.wav', sr=16000)

```

  • 使用`librosa.load`加载音频文件,`sr`表示采样率。
  1. **计算Mel频谱**

```python

mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

log_mel = librosa.power_to_db(mel, ref=np.max)

```

  • 使用`librosa.feature.melspectrogram`计算Mel频谱。

  • 使用`librosa.power_to_db`将Mel频谱转换为对数尺度。

  1. **绘制频谱图**

```python

plt.figure(figsize=(10, 4))

librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')

```

  • 创建一个`matplotlib`图形。

  • 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

  1. **添加颜色条和标签**

```python

plt.colorbar(label='Log Mel Spectrogram (dB)')

plt.xlabel('Time')

plt.ylabel('Mel Frequency')

plt.title('Mel Spectrogram')

```

  • 添加颜色条,表示频谱的对数幅度。

  • 设置x轴和y轴的标签。

  • 设置图形的标题。

  1. **调整布局并显示**

```python

plt.tight_layout()

plt.show()

```

  • 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。

  • 使用`plt.show()`显示图形。

保存图像

如果需要将图像保存到文件中,可以使用`plt.savefig`:

```python

plt.savefig('mel_spectrogram.png')

plt.close()

```

总结

`librosa.display.specshow` 是一个非常强大的工具,用于绘制音频信号的各种频谱图。它不仅能够自动处理轴标签和刻度,还能通过参数灵活配置。通过结合`matplotlib`的功能,可以生成高质量的频谱图,适用于数据分析和可视化。

错误的代码,注释部分, 第一个参数需要的是 librosa.load 读取后的二维数组
而不是 经过处理后的数据,频谱数据

复制代码
# 生成Mel频谱
mel = librosa.feature.melspectrogram(
    y=y, sr=sr, n_mels=Config.n_mels,
    n_fft=2048, hop_length=512, power=2
)
log_mel = librosa.power_to_db(mel, ref=np.max)
复制代码
def save_mel_as_image(filepath, output_dir, denoise=False):
    mel = audio_to_mel(filepath, denoise)
    """
    将梅尔频谱图保存为PNG图片
    """
    plt.figure(figsize=(10, 4))
    # librosa提供的功能来自动处理对数转换和轴标签
    # 这里不需要 ,第一个参数是原始数据,
    # librosa.display.specshow(mel, sr=Config.sr, x_axis='time', y_axis='mel')
    plt.colorbar(format='%+2.0f dB')
    plt.tight_layout()
    plt.savefig(output_dir)
    plt.close()

`librosa.feature.melspectrogram` 是一个用于计算Mel频谱图的函数。Mel频谱图是一种将音频信号的频谱表示在Mel频率尺度上的方法,广泛应用于音频处理和机器学习任务中。Mel频率尺度是一种非线性频率尺度,更接近人类听觉系统的感知特性。

函数签名

```python

librosa.feature.melspectrogram(

y=None,

sr=22050,

S=None,

n_fft=2048,

hop_length=512,

win_length=None,

window='hann',

center=True,

pad_mode='constant',

power=2.0,

n_mels=128,

fmin=0.0,

fmax=None,

htk=False,

norm='slaney',

dtype=np.float32

)

```

参数说明

输入参数

  • **`y`**:音频时间序列。如果提供了`S`,则`y`可以为`None`。

  • **`sr`**:采样率,默认值为22050 Hz。

  • **`S`**:频谱图(STFT)。如果提供了`S`,则`y`可以为`None`。`S`应该是通过`librosa.stft`计算得到的频谱图。

  • **`n_fft`**:FFT窗口大小,默认值为2048。

  • **`hop_length`**:帧移,默认值为512。

  • **`win_length`**:窗口长度,默认值为`n_fft`。

  • **`window`**:窗口函数,默认值为`'hann'`。

  • **`center`**:是否将音频时间序列居中,默认值为`True`。

  • **`pad_mode`**:填充模式,默认值为`'constant'`。

  • **`power`**:功率,默认值为2.0。表示频谱图的功率,通常为2(能量谱)或1(幅度谱)。

Mel滤波器参数

  • **`n_mels`**:Mel频带的数量,默认值为128。

  • **`fmin`**:最小频率,默认值为0.0 Hz。

  • **`fmax`**:最大频率,默认值为`None`,表示采样率的一半(Nyquist频率)。

  • **`htk`**:是否使用HTK算法计算Mel滤波器,默认值为`False`。

  • **`norm`**:归一化方式,默认值为`'slaney'`。可以设置为`None`或`'slaney'`。

  • **`dtype`**:数据类型,默认值为`np.float32`。

返回值

  • 返回一个二维数组,表示Mel频谱图。其形状为`(n_mels, t)`,其中`t`是时间轴的长度。

示例代码

以下是一个完整的示例,展示如何使用`librosa.feature.melspectrogram`计算Mel频谱图并绘制:

```python

import librosa

import librosa.display

import matplotlib.pyplot as plt

import numpy as np

加载音频文件

y, sr = librosa.load('example.wav', sr=16000)

计算Mel频谱图

mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

将Mel频谱图转换为对数尺度

log_mel = librosa.power_to_db(mel, ref=np.max)

绘制Mel频谱图

plt.figure(figsize=(10, 4))

librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')

plt.colorbar(label='Log Mel Spectrogram (dB)')

plt.xlabel('Time')

plt.ylabel('Mel Frequency')

plt.title('Mel Spectrogram')

plt.tight_layout()

plt.show()

```

详细解释

  1. **加载音频文件**

```python

y, sr = librosa.load('example.wav', sr=16000)

```

  • 使用`librosa.load`加载音频文件,`sr`表示采样率。
  1. **计算Mel频谱图**

```python

mel = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128)

```

  • 使用`librosa.feature.melspectrogram`计算Mel频谱图。`n_mels=128`表示生成128个Mel频带。
  1. **转换为对数尺度**

```python

log_mel = librosa.power_to_db(mel, ref=np.max)

```

  • 使用`librosa.power_to_db`将Mel频谱图转换为对数尺度。`ref=np.max`表示以频谱图的最大值为参考值。
  1. **绘制频谱图**

```python

plt.figure(figsize=(10, 4))

librosa.display.specshow(log_mel, sr=sr, x_axis='time', y_axis='mel')

```

  • 创建一个`matplotlib`图形。

  • 使用`librosa.display.specshow`绘制频谱图。`x_axis='time'`表示x轴为时间轴,`y_axis='mel'`表示y轴为Mel频率轴。

  1. **添加颜色条和标签**

```python

plt.colorbar(label='Log Mel Spectrogram (dB)')

plt.xlabel('Time')

plt.ylabel('Mel Frequency')

plt.title('Mel Spectrogram')

```

  • 添加颜色条,表示频谱的对数幅度。

  • 设置x轴和y轴的标签。

  • 设置图形的标题。

  1. **调整布局并显示**

```python

plt.tight_layout()

plt.show()

```

  • 使用`plt.tight_layout()`调整布局,避免标签和颜色条的重叠。

  • 使用`plt.show()`显示图形。

保存图像

如果需要将图像保存到文件中,可以使用`plt.savefig`:

```python

plt.savefig('mel_spectrogram.png')

plt.close()

```

总结

`librosa.feature.melspectrogram` 是一个非常强大的函数,用于计算Mel频谱图。它通过Mel频率尺度将音频信号的频谱表示得更加符合人类听觉系统的感知特性。通过结合`librosa.power_to_db`和`librosa.display.specshow`,可以生成高质量的Mel频谱图,适用于音频分析和机器学习任务。

相关推荐
第六五8 小时前
大型音频语言模型论文总结
人工智能·语言模型·音视频
Marvin131113 小时前
LiveQing视频RTMP推流视频点播服务功能-云端录像支持按时间段下载录像时间段下载视频mp4
音视频·自定义时间段·视频下载mp4·监控视频下载mp4·时间段下载mp4·liveqing视频平台
井云AI15 小时前
井云科技交互数字人:用技术普惠重构智能交互新范式
音视频·实时音视频·数字人·交互数字人·数字人口播·井云科技
Marvin13111 天前
LiveQing视频推流点播流媒体常见问题-分屏展示页面如何显示直播间的名称多分屏视频画面监控
网络·音视频·视频分屏监控·liveqing视频流媒体
LetsonH1 天前
⭐CVPR2025 MatAnyone:稳定且精细的视频抠图新框架
人工智能·python·深度学习·计算机视觉·音视频
音视频牛哥1 天前
无人机 × 巡检 × AI识别:一套可复制的超低延迟低空视频感知系统搭建实践
人工智能·音视频·无人机·大牛直播sdk·低空感知·无人机视频回传·ai边缘识别
伊莲娜生活1 天前
从听不清到双兼顾:声网推动游戏音频技术升级
游戏·音视频
sukalot1 天前
window显示驱动开发—将加密会话与 DirectX 视频加速器 2.0 解码器配合使用
数据库·驱动开发·音视频
却道天凉_好个秋1 天前
音视频学习(四十五):声音的产生
音视频