day44 python 训练CNN网络并使用Grad-CAM可视化

目录

一、引言

二、数据集选择

三、CNN模型构建与训练

(一)模型构建

(二)数据预处理

(三)模型训练

四、Grad-CAM可视化

五、代码拆分


一、引言

在深度学习领域,卷积神经网络(CNN)已成为图像处理任务的核心工具之一。通过构建和训练CNN模型,我们可以实现图像分类、目标检测等多种功能。而Grad-CAM(Gradient-weighted Class Activation Mapping)作为一种可视化技术,能够帮助我们理解CNN模型是如何关注图像中的特定区域来做出预测的。本文将介绍如何在Kaggle平台上找到一个图像数据集,使用CNN网络进行训练,并利用Grad-CAM进行可视化。此外,为了提高代码的可读性和可维护性,我们将代码拆分成多个文件。

二、数据集选择

我们选择了 猫狗图像识别数据集(Cats vs. Dogs)。该数据集包含猫和狗的图像,用于二分类任务。数据集的图像数量较多,图像质量较高,且类别区分明显,非常适合初学者进行CNN模型的训练和可视化实践。

  • 数据集描述:包含猫和狗的图像,每张图像的标签为"cat"或"dog"。

  • 数据集链接猫狗图像识别数据集

  • 适用场景:适合用于二分类图像分类任务,数据集的图像质量较高,类别区分明显,适合初学者和进阶学习者。

三、CNN模型构建与训练

(一)模型构建

我们使用Python和深度学习框架TensorFlow来构建CNN模型。模型结构如下:

python 复制代码
# model.py
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

def build_model():
    model = Sequential([
        Conv2D(32, (3, 3), activation='relu', input_shape=(150, 150, 3)),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Conv2D(128, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Flatten(),
        Dense(128, activation='relu'),
        Dense(2, activation='softmax')  # 二分类任务
    ])
    return model

该模型由多个卷积层和池化层组成,最后通过全连接层输出分类结果。模型的结构设计旨在提取图像的特征,并通过逐步下采样和特征融合来提高分类性能。

(二)数据预处理

在训练模型之前,需要对数据集进行预处理。我们使用以下代码对图像数据进行归一化和数据增强:

python 复制代码
# data_preprocessing.py
from tensorflow.keras.preprocessing.image import ImageDataGenerator

def preprocess_data(train_dir, validation_dir, image_size, batch_size):
    train_datagen = ImageDataGenerator(rescale=1./255,
                                       rotation_range=20,
                                       width_shift_range=0.2,
                                       height_shift_range=0.2,
                                       shear_range=0.2,
                                       zoom_range=0.2,
                                       horizontal_flip=True,
                                       fill_mode='nearest')
    validation_datagen = ImageDataGenerator(rescale=1./255)

    train_generator = train_datagen.flow_from_directory(train_dir,
                                                        target_size=image_size,
                                                        batch_size=batch_size,
                                                        class_mode='categorical')
    validation_generator = validation_datagen.flow_from_directory(validation_dir,
                                                                  target_size=image_size,
                                                                  batch_size=batch_size,
                                                                  class_mode='categorical')
    return train_generator, validation_generator

通过数据增强技术,如旋转、平移、裁剪等,可以增加模型的泛化能力,防止过拟合。

(三)模型训练

在完成模型构建和数据预处理后,我们开始训练模型。以下是训练代码:

python 复制代码
# train.py
from tensorflow.keras.optimizers import Adam
from model import build_model
from data_preprocessing import preprocess_data

def train_model(train_dir, validation_dir, image_size, batch_size, epochs):
    model = build_model()
    model.compile(optimizer=Adam(learning_rate=0.001),
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])
    train_generator, validation_generator = preprocess_data(train_dir, validation_dir, image_size, batch_size)
    history = model.fit(train_generator,
                        epochs=epochs,
                        validation_data=validation_generator)
    model.save('model.h5')
    return history

在训练过程中,我们使用Adam优化器和分类交叉熵损失函数,并通过验证集来监控模型的性能。训练完成后,将模型保存为model.h5文件。

四、Grad-CAM可视化

Grad-CAM是一种可视化技术,能够将模型的注意力区域以热力图的形式展示出来。以下是实现Grad-CAM可视化的代码:

python 复制代码
# grad_cam.py
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import load_model
import cv2

def make_gradcam_heatmap(img_array, model, last_conv_layer_name, pred_index=None):
    grad_model = tf.keras.models.Model(
        [model.inputs], [model.get_layer(last_conv_layer_name).output, model.output]
    )
    with tf.GradientTape() as tape:
        last_conv_layer_output, preds = grad_model(img_array)
        if pred_index is None:
            pred_index = tf.argmax(preds[0])
        class_channel = preds[:, pred_index]
    grads = tape.gradient(class_channel, last_conv_layer_output)
    pooled_grads = tf.reduce_mean(grads, axis=(0, 1, 2))
    last_conv_layer_output = last_conv_layer_output[0]
    heatmap = last_conv_layer_output @ pooled_grads[..., tf.newaxis]
    heatmap = tf.squeeze(heatmap)
    heatmap = tf.maximum(heatmap, 0) / tf.math.reduce_max(heatmap)
    return heatmap.numpy()

def save_and_display_gradcam(img, heatmap, alpha=0.4):
    heatmap = np.uint8(255 * heatmap)
    heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)
    superimposed_img = heatmap * alpha + img
    cv2.imwrite('gradcam.jpg', superimposed_img)

model = load_model('model.h5')
last_conv_layer_name = 'conv2d_2'  # 替换为实际的最后一层卷积层名称
img_path = 'test_image.jpg'  # 替换为测试图像路径
img = cv2.imread(img_path)
img = cv2.resize(img, (150, 150))
img_array = np.expand_dims(img, axis=0)
heatmap = make_gradcam_heatmap(img_array, model, last_conv_layer_name)
save_and_display_gradcam(img, heatmap)

通过Grad-CAM可视化,我们可以直观地看到模型在做出预测时关注的图像区域,从而更好地理解模型的行为。

五、代码拆分

为了提高代码的可读性和可维护性,我们将代码拆分成多个文件。具体文件结构如下:

python 复制代码
project/
│
├── model.py                # CNN模型构建代码
├── data_preprocessing.py   # 数据预处理代码
├── train.py                # 模型训练代码
├── grad_cam.py             # Grad-CAM可视化代码
├── main.py                 # 主程序入口
└── model.h5                # 训练好的模型文件

main.py中,我们调用其他模块的函数来完成整个流程:

python 复制代码
# main.py
from train import train_model
from grad_cam import make_gradcam_heatmap, save_and_display_gradcam

if __name__ == '__main__':
    train_dir = 'train_data'
    validation_dir = 'validation_data'
    image_size = (150, 150)
    batch_size = 32
    epochs = 10
    train_model(train_dir, validation_dir, image_size, batch_size, epochs)
    # Grad-CAM可视化代码
    model = load_model('model.h5')
    last_conv_layer_name = 'conv2d_2'  # 替换为实际的最后一层卷积层名称
    img_path = 'test_image.jpg'  # 替换为测试图像路径
    img = cv2.imread(img_path)
    img = cv2.resize(img, image_size)
    img_array = np.expand_dims(img, axis=0)
    heatmap = make_gradcam_heatmap(img_array, model, last_conv_layer_name)
    save_and_display_gradcam(img, heatmap)

通过这种模块化的代码结构,我们可以方便地对各个模块进行修改和扩展,提高开发效率。

@浙大疏锦行

相关推荐
搬码临时工2 分钟前
公网ip怎么申请和使用?本地只有内网IP如何提供外网访问?
运维·服务器·网络·tcp/ip·电脑·远程工作
Studying 开龙wu6 分钟前
机器学习监督学习sklearn实战三:八种算法对印第安人糖尿病预测数据进行分类和比较
深度学习·算法·机器学习
水银嘻嘻9 分钟前
07 APP 自动化- appium+pytest+allure框架封装
python·appium·自动化·pytest
Coovally AI模型快速验证20 分钟前
基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破
人工智能·神经网络·算法·yolo·目标检测·无人机·cocos2d
百锦再23 分钟前
# Vue + OpenLayers 完整项目开发指南
开发语言·前端·javascript·vue.js·python·ecmascript·tkinter
火兮明兮32 分钟前
Python训练第四十四天
python·深度学习·机器学习
天天代码码天天38 分钟前
C# Onnx 动漫人物人脸检测
人工智能·深度学习·神经网络·opencv·目标检测·机器学习·计算机视觉
可遇_不可求40 分钟前
CortexON:开源的多代理AI系统无缝自动化和简化日常任务
人工智能·开源·自动化
电鱼智能的电小鱼1 小时前
无人机巡检智能边缘计算终端技术方案‌‌——基于EFISH-SCB-RK3588工控机/SAIL-RK3588核心板的国产化替代方案‌
网络·人工智能·嵌入式硬件·算法·机器人·无人机·边缘计算
捂一捂啊啊1 小时前
PyTorch中nn.Module详解
人工智能·pytorch·python