猫狗分类识别模型建立②模型建立

一、导入依赖库

python 复制代码
pip install opencv-python  
pip install numpy  
pip install tensorflow
pip install keras

二、模型建立

python 复制代码
'''
pip install opencv-python  
pip install numpy  
pip install tensorflow
pip install keras
'''
import os
import xml.etree.ElementTree as ET

import cv2
import numpy as np
from keras.layers import Input
from keras.models import Model
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.layers import Conv2D, Dense, Flatten, MaxPooling2D
from tensorflow.keras.models import Sequential
from tensorflow.keras.utils import to_categorical

# 设置文件夹路径
images_dir = "imgs/"
annotations_dir = "imgs/"
num_classes = 2  # 设置类别总数
input_shape = (128, 128, 3)
# 模型名称
model_name = "dog_cat.keras"
# 用于存储图像数据和标签的列表
images = []
labels = []

"""
1 dog 狗
2 cat 猫
"""
# 假设我们有一个从标签文本到标签索引的映射字典
label_to_index = {
    "dog": 0,
    "cat": 1,
    # ... 添加其他类别
}

# 遍历文件夹加载数据
for filename in os.listdir(images_dir):
    if filename.endswith(".png"):
        image_path = os.path.join(images_dir, filename)
        annotation_path = os.path.join(annotations_dir, filename[:-4] + ".xml")

        # 读取图像
        image = cv2.imread(image_path)
        image = cv2.resize(image, (128, 128))  # 调整图像大小
        images.append(image)

        # 解析XML标注文件获取标签
        tree = ET.parse(annotation_path)
        root = tree.getroot()
        object_element = root.find("object")
        if object_element is not None:
            label_text = object_element.find("name").text
            label_index = label_to_index.get(label_text)
            if label_index is not None:
                labels.append(label_index)
            else:
                print(f"Warning: Unknown label '{label_text}', skipping.")

# 转换为NumPy数组并进行归一化
images = np.array(images) / 255.0
labels = np.array(labels)

# 确保所有的标签都是有效的整数
if labels.dtype != int:
    raise ValueError("Labels must contain only integers.")

labels = to_categorical(labels, num_classes=num_classes)  # 假设num_classes是类别的总数


# 使用Functional API定义模型
# 创建一个输入层,shape参数指定了输入数据的形状,input_shape是一个之前定义的变量,表示输入数据的维度。
inputs = Input(shape=input_shape)
# 下面的每一行都是通过一个层对数据进行处理,并将处理后的结果传递给下一个层。
# 对输入数据进行卷积操作,使用32个3x3的卷积核,并使用ReLU激活函数。结果赋值给变量x。
x = Conv2D(32, (3, 3), activation="relu")(inputs)
# 对x进行最大池化操作,池化窗口大小为2x2。这有助于减少数据的空间尺寸,从而减少计算量并提取更重要的特征。
x = MaxPooling2D(pool_size=(2, 2))(x)
# 再次进行卷积操作,这次使用64个3x3的卷积核,并继续使用ReLU激活函数。
x = Conv2D(128, (3, 3), activation="relu")(x)
# 再次进行最大池化操作,进一步减少数据的空间尺寸。
x = MaxPooling2D(pool_size=(2, 2))(x)
x = Flatten()(x)  # 将多维的数据展平为一维,以便后续可以连接到全连接层(或称为密集层)。
# 创建一个全连接层,包含64个神经元,并使用ReLU激活函数。这一层可以进一步提取和组合特征。
x = Dense(128, activation="relu")(x)
# 创建一个输出层,神经元的数量与类别的数量(num_classes)相等。使用softmax激活函数,将输出转换为概率分布。
outputs = Dense(num_classes, activation="softmax")(x)
# 使用输入和输出来创建模型实例
model = Model(inputs=inputs, outputs=outputs)  # 通过指定输入和输出来定义模型的结构。
# 编译模型,指定优化器、损失函数和评估指标
# 使用Adam优化器、分类交叉熵损失函数,并监控准确性指标。
model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

# 使用图像数据和标签训练模型
# 使用fit方法训练模型,指定训练数据、训练轮次(epochs)和批处理大小(batch_size)。
model.fit(images, labels, epochs=55, batch_size=512)

# 保存训练好的模型到文件
# 将训练好的模型保存为HDF5文件,以便以后加载和使用。
model.save(model_name)
# keras.saving.save_model(model, "cnn_model.keras")
# model.save("cnn_model.h5")

三、文件结构及构建的模型

①文件结构

②建立后的模型

四、模型可视化

可视化工具与兼容的python版本下载。

相关推荐
白熊1881 分钟前
【计算机视觉】OpenCV实战项目:ETcTI_smart_parking智能停车系统深度解析
人工智能·opencv·计算机视觉
yzx99101321 分钟前
支持向量机与逻辑回归的区别及 SVM 在图像分类中的应用
支持向量机·分类·逻辑回归
消失在人海中1 小时前
数据分析基础:需要掌握的入门知识
数据库·人工智能·数据分析
西红柿土豆丶1 小时前
基于Flask、Bootstrap及深度学习的水库智能监测分析平台
人工智能·python·深度学习·flask·bootstrap
zylyyyyyy1 小时前
DEEPPOLAR:通过深度学习发明非线性大核极坐标码(2)
人工智能·深度学习·信息与通信·polar码·译码
phoenix@Capricornus1 小时前
MATLAB Deep Learning Toolbox
人工智能·深度学习·matlab
国货崛起1 小时前
刘强东杀入自动驾驶!京东注册“Joyrobotaxi”商标
人工智能·机器学习·自动驾驶
HockerF1 小时前
交叉编译 opencv-4.10
人工智能·opencv·计算机视觉
nenchoumi31192 小时前
LLM 论文精读(四)LLM Post-Training: A Deep Dive into Reasoning Large Language Models
人工智能·语言模型·自然语言处理
鸿蒙布道师2 小时前
英伟达开源Llama-Nemotron系列模型:14万H100小时训练细节全解析
深度学习·神经网络·opencv·机器学习·自然语言处理·数据挖掘·llama