TensorFlow学习系列07 | 实现咖啡豆识别

🍨 本文为 🔗365天深度学习训练营中的学习记录博客
🍖 原作者： K同学啊

一、前置知识

1、VGG-16算法介绍

VGG-16 是深度学习计算机视觉领域中非常著名且经典的卷积神经网络（CNN）模型，由牛津大学的 Visual Geometry Group (VGG) 提出。它在 2014 年的 ImageNet 竞赛中取得了极好的成绩，并且因为其结构简洁、规整，至今仍常被用作教学示例或特征提取的基础模型。

VGG-16 最显著的特点就是它的"深度"（16层带权重的层）以及它对小尺寸卷积核（3x3）的坚持使用。我们可以一起来探索它的奥秘。

1.1、网络架构与"积木"结构

为了理解 VGG-16 的架构，我们可以把它想象成一个"5级浓缩果汁加工厂"。

标准化的车间（卷积块）：

这个工厂有 5 个主要车间（对应 5 个卷积块）。
虽然车间的大小不同，但里面的工序是一模一样的：都是用同一种小刀（3*3 卷积核）去切水果（提取特征）。
前两个车间比较初级，每个车间有 2 道 工序（2 层卷积）；后三个车间比较高级，每个车间有 3 道工序（3 层卷积）。

过滤筛网（池化层）：

每通过一个车间，果汁就会经过一个筛子（最大池化层 Max Pooling）。
这个筛子的作用是把渣滓滤掉，只保留最浓缩的精华。
结果是：果汁的体积变小了 （图片尺寸减半），但是浓度变高了（通道数/特征维度翻倍）。

品鉴专家（全连接层）：

经过 5 个车间的反复提炼，最后得到的"高浓缩浆"被送到了 3 位专家面前（3 层全连接层）。
他们不再关心水果的形状，只根据浓缩浆的成分，拍板定案：这是"苹果汁"还是"橙汁"（分类结果）。

1.2、核心创新：为什么是 3x3？

为了理解为什么要"舍大求小"，我们可以想象 "警察审讯嫌疑人" 的场景。

大卷积核（一次审完）：

就像一个彪悍的警察，把嫌疑人抓来，直接问一个非常宏大的问题（看 7*7 的大范围）。
他只问一次，虽然覆盖面广，但只有一次判断机会。如果嫌疑人撒谎，很难立刻识破，细节容易丢失。

小卷积核堆叠（层层盘问）：

就像三个精明的侦探轮流审讯（三层 3 * 3）。
第一个侦探问细节，整理出初级线索；
第二个侦探拿着初级线索，进一步挖掘逻辑矛盾；
第三个侦探基于前两人的报告，得出最终结论。
结果： 虽然每次每个人问的范围小，但三个人加起来覆盖的信息量（感受野）和那个彪悍警察一样大。更重要的是，中间多了两次"思考和分析"（非线性激活），能挖出更深层的真相，而且雇佣这三个人的成本（参数量）比那个大牌警察还低！

1.3、从输入到输出的流程

把 VGG-16 想象成一条"数据流水线"。我们将追踪一张猫的照片**（224 * 224 像素）是如何进入网络，被层层"扒皮"，最后变成一个简单的单词"Cat"的。

我们可以把这个过程想象成 "从拼图碎片到鉴定报告" 的过程

输入端（一堆碎片）：

你给了机器一盒 224x224 的拼图碎片（原始像素），看起来乱七八糟，毫无意义。

浅层处理（Block 1-2：整理员）：

机器先把碎片按颜色、直边、转角分类。
它看到了什么： 线条、边缘、颜色斑点。
状态： 拼图还很散，但每一堆分类变得更厚了。

中层处理（Block 3-4：拼凑员）：

机器开始把碎片拼成小块，比如"圆圆的东西"（可能是眼睛）或"毛茸茸的三角"（可能是耳朵）。
它看到了什么： 纹理、五官、局部形状。
状态： 拼图块变大了（特征图尺寸变小），信息更具体了（通道数变多）。

深层处理（Block 5：统筹师）：

机器把局部拼在一起，发现是一个"有着尖耳朵和胡须的头像"。
它看到了什么： 完整的物体概念（猫的头、猫的腿）。

全连接层（鉴定官）：

鉴定官不再看图了，他拿着统筹师给的"特征清单"（有胡须、有尖耳、有瞳孔），直接在表格上打勾。
输出： "猫"的概率是 98%，"狗"的概率是 2%。

到现在为止，你已经掌握了 VGG-16 的架构 (2-2-3-3-3) 、核心原理 (小卷积核) 以及数据流向 (宽变窄，薄变厚)。

二、代码实现

1、准备工作

1.1.设置GPU

复制代码

import tensorflow as tf
gpus = tf.config.list_physical_devices("GPU")

if gpus:
    gpu0 = gpus[0] #如果有多个GPU，仅使用第0个GPU
    tf.config.experimental.set_memory_growth(gpu0, True) #设置GPU显存用量按需使用
    tf.config.set_visible_devices([gpu0],"GPU")
    
print(gpus)

[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]

1.2.导入数据

复制代码

import os,PIL,pathlib
import matplotlib.pyplot as plt
import numpy             as np
from tensorflow          import keras
from tensorflow.keras    import layers,models

# 查看当前工作路径（确认路径是否正确）
print("当前工作路径：", os.getcwd())

# 定义数据目录（建议用绝对路径更稳妥，相对路径依赖当前工作路径）
data_dir = './data/day07/'
data_dir = pathlib.Path(data_dir)

# 获取数据目录下的所有子路径（文件夹或文件）
data_paths = list(data_dir.glob('*'))

# 提取每个子路径的名称（即类别名，自动适配系统分隔符）
classeNames = [path.name for path in data_paths]
classeNames

2026-03-12 23:43:35.439613: I tensorflow/core/util/util.cc:169] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.

当前工作路径： /root/autodl-tmp/TensorFlow2
['Green', 'Medium', 'Light', 'Dark']

1.3.查看数据

复制代码

image_count = len(list(data_dir.glob('*/*.png')))
print("图片总数为：",image_count)

图片总数为： 1200

1.4.可视化图片

复制代码

roses = list(data_dir.glob('Green/*.png'))
PIL.Image.open(str(roses[0]))

2、数据预处理

2.1.加载数据

使用image_dataset_from_directory方法将磁盘中的数据加载到tf.data.Dataset中

batch_size = 32
img_height = 224
img_width = 224

#训练集
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
data_dir,
validation_split=0.2,
subset="training",
seed=123,
image_size=(img_height, img_width),
batch_size=batch_size)

Found 1200 files belonging to 4 classes.
Using 960 files for training.

验证集

val_ds = tf.keras.preprocessing.image_dataset_from_directory(
data_dir,
validation_split=0.2,
subset="validation",
seed=123,
image_size=(img_height, img_width),
batch_size=batch_size)

Found 1200 files belonging to 4 classes.
Using 240 files for validation.

class_names = train_ds.class_names
print(class_names)

['Dark', 'Green', 'Light', 'Medium']

2.2.可视化数据

复制代码

plt.figure(figsize=(10, 4))  # 图形的宽为10高为5

for images, labels in train_ds.take(1):
    for i in range(10):
        
        ax = plt.subplot(2, 5, i + 1)  

        plt.imshow(images[i].numpy().astype("uint8"))
        plt.title(class_names[labels[i]])
        
        plt.axis("off")

2.3.检查数据

Image_batch是形状的张量（32,180,180,3）。这是一批形状180x180x3的32张图片（最后一维指的是彩色通道RGB）。

Label_batch是形状（32，）的张量，这些标签对应32张图片

for image_batch, labels_batch in train_ds:
print(image_batch.shape)
print(labels_batch.shape)
break

(32, 224, 224, 3)
(32,)

2.4.配置数据集

shuffle() ：打乱数据，关于此函数的详细介绍可以参考

prefetch() ：预取数据，加速运行

cache() ：将数据集缓存到内存当中，加速运行

AUTOTUNE = tf.data.AUTOTUNE

train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

normalization_layer = layers.experimental.preprocessing.Rescaling(1./255)

train_ds = train_ds.map(lambda x, y: (normalization_layer(x), y))
val_ds = val_ds.map(lambda x, y: (normalization_layer(x), y))

image_batch, labels_batch = next(iter(val_ds))
first_image = image_batch[0]

查看归一化后的数据

print(np.min(first_image), np.max(first_image))

0.0 1.0

3、训练模型

3.1.构建VGG-16网络

复制代码

from tensorflow.keras import layers, models, Input
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Dense, Flatten, Dropout

def VGG16(nb_classes, input_shape):
    input_tensor = Input(shape=input_shape)
    # 1st block
    x = Conv2D(64, (3,3), activation='relu', padding='same',name='block1_conv1')(input_tensor)
    x = Conv2D(64, (3,3), activation='relu', padding='same',name='block1_conv2')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block1_pool')(x)
    # 2nd block
    x = Conv2D(128, (3,3), activation='relu', padding='same',name='block2_conv1')(x)
    x = Conv2D(128, (3,3), activation='relu', padding='same',name='block2_conv2')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block2_pool')(x)
    # 3rd block
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv1')(x)
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv2')(x)
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block3_pool')(x)
    # 4th block
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv1')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv2')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block4_pool')(x)
    # 5th block
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv1')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv2')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block5_pool')(x)
    # full connection
    x = Flatten()(x)
    x = Dense(4096, activation='relu',  name='fc1')(x)
    x = Dense(4096, activation='relu', name='fc2')(x)
    output_tensor = Dense(nb_classes, activation='softmax', name='predictions')(x)

    model = Model(input_tensor, output_tensor)
    return model

model=VGG16(len(class_names), (img_width, img_height, 3))
model.summary()

Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 input_1 (InputLayer)        [(None, 224, 224, 3)]     0         
                                                                 
 block1_conv1 (Conv2D)       (None, 224, 224, 64)      1792      
                                                                 
 block1_conv2 (Conv2D)       (None, 224, 224, 64)      36928     
                                                                 
 block1_pool (MaxPooling2D)  (None, 112, 112, 64)      0         
                                                                 
 block2_conv1 (Conv2D)       (None, 112, 112, 128)     73856     
                                                                 
 block2_conv2 (Conv2D)       (None, 112, 112, 128)     147584    
                                                                 
 block2_pool (MaxPooling2D)  (None, 56, 56, 128)       0         
                                                                 
 block3_conv1 (Conv2D)       (None, 56, 56, 256)       295168    
                                                                 
 block3_conv2 (Conv2D)       (None, 56, 56, 256)       590080    
                                                                 
 block3_conv3 (Conv2D)       (None, 56, 56, 256)       590080    
                                                                 
 block3_pool (MaxPooling2D)  (None, 28, 28, 256)       0         
                                                                 
 block4_conv1 (Conv2D)       (None, 28, 28, 512)       1180160   
                                                                 
 block4_conv2 (Conv2D)       (None, 28, 28, 512)       2359808   
                                                                 
 block4_conv3 (Conv2D)       (None, 28, 28, 512)       2359808   
                                                                 
 block4_pool (MaxPooling2D)  (None, 14, 14, 512)       0         
                                                                 
 block5_conv1 (Conv2D)       (None, 14, 14, 512)       2359808   
                                                                 
 block5_conv2 (Conv2D)       (None, 14, 14, 512)       2359808   
                                                                 
 block5_conv3 (Conv2D)       (None, 14, 14, 512)       2359808   
                                                                 
 block5_pool (MaxPooling2D)  (None, 7, 7, 512)         0         
                                                                 
 flatten (Flatten)           (None, 25088)             0         
                                                                 
 fc1 (Dense)                 (None, 4096)              102764544 
                                                                 
 fc2 (Dense)                 (None, 4096)              16781312  
                                                                 
 predictions (Dense)         (None, 4)                 16388     
                                                                 
=================================================================
Total params: 134,276,932
Trainable params: 134,276,932
Non-trainable params: 0
_________________________________________________________________

3.2.编译模型

SparseCategoricalCrossentropy函数注意事项：

from_logits参数：布尔值，默认值为 False。

当为 True 时，函数假设传入的预测值是未经过激活函数处理的原始 logits 值。如果模型的最后一层没有使用 softmax 激活函数（即返回 logits），需要将 from_logits 设置为 True。

当为 False 时，函数假设传入的预测值已经是经过 softmax 处理的概率分布。

设置初始学习率

initial_learning_rate = 1e-4

lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
initial_learning_rate,
decay_steps=30, # 敲黑板！！！这里是指 steps，不是指epochs
decay_rate=0.92, # lr经过一次衰减就会变成 decay_rate*lr
staircase=True)

设置优化器

opt = tf.keras.optimizers.Adam(learning_rate=initial_learning_rate)

model.compile(optimizer=opt,
loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
metrics=['accuracy'])

3.3.训练模型

复制代码

epochs = 20

history = model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=epochs
)

Epoch 1/20
30/30 [==============================] - 13s 160ms/step - loss: 1.3507 - accuracy: 0.3385 - val_loss: 1.1250 - val_accuracy: 0.2750
Epoch 2/20
30/30 [==============================] - 4s 142ms/step - loss: 0.8362 - accuracy: 0.6146 - val_loss: 0.6616 - val_accuracy: 0.5917
....
Epoch 19/20
30/30 [==============================] - 4s 138ms/step - loss: 0.0256 - accuracy: 0.9917 - val_loss: 0.0535 - val_accuracy: 0.9917
Epoch 20/20
30/30 [==============================] - 4s 138ms/step - loss: 0.0121 - accuracy: 0.9937 - val_loss: 0.0499 - val_accuracy: 0.9958

4、模型评估

4.1.Loss与Accuracy图

复制代码

from datetime import datetime
current_time = datetime.now() # 获取当前时间

acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs_range = range(epochs)

plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, acc, label='Training Accuracy')
plt.plot(epochs_range, val_acc, label='Validation Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')
plt.xlabel(current_time) # 打卡请带上时间戳，否则代码截图无效

plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label='Training Loss')
plt.plot(epochs_range, val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

TensorFlow学习系列07 | 实现咖啡豆识别

一、前置知识

1、VGG-16算法介绍

1.1、网络架构与"积木"结构

1.2、核心创新：为什么是 3x3？

1.3、从输入到输出的流程

二、代码实现

1、准备工作

1.1.设置GPU

1.2.导入数据

1.3.查看数据

1.4.可视化图片

2、数据预处理

2.1.加载数据

验证集

2.2.可视化数据

2.3.检查数据

2.4.配置数据集

查看归一化后的数据

3、训练模型

3.1.构建VGG-16网络

3.2.编译模型

设置初始学习率

设置优化器

3.3.训练模型

4、模型评估

4.1.Loss与Accuracy图