基于卷积神经网络的人脸情绪识别算法，引入残差连接与SE注意力模块

1前言

1. 研究的背景和意义

1.1.1 研究背景

随着人工智能技术的飞速发展，人机交互日益成为日常生活的重要组成部分。人类情感的表达主要通过面部表情、语音语调、肢体动作等方式传递，其中面部表情是最直观、最丰富的载体。人脸情绪识别旨在使计算机能够自动识别人类的情绪状态，如高兴、悲伤、愤怒、惊讶等，从而实现更自然、更智能的交互。该技术在智能教育、心理健康监测、安全驾驶、娱乐互动等领域具有广阔的应用前景。

在高校环境中，学生心理健康问题日益受到关注。实时监测学生的情绪状态，及时发现异常心理，对预防极端事件具有重要意义。然而，传统情绪识别方法依赖手工特征提取，在复杂光照、姿态变化和遮挡等条件下鲁棒性较差。近年来，基于深度学习的卷积神经网络（CNN）在图像识别任务中取得突破性进展，为人脸情绪识别提供了新的技术途径。

1.1.2 研究意义

随着人工智能和自动化技术的快速发展，人机交互的智能化需求日益提升，人脸情绪识别作为人机情感交互的核心技术，能够打破人与机器的情感壁垒，为生活和工作带来便利，推动智能系统向更人性化方向发展。且这一课题的研究可拓展到多个领域，例如教育领域的学生情绪监测、医疗领域的心理疾病辅助诊断、安防领域的异常情绪预警、服务领域的客户满意度分析等，具有广泛的应用价值和市场前景。根据课题的研究可培养自动化专业学生对深度学习、神经网络、Python编程、数字图像处理等核心知识的深入掌握，提高问题分析与解决能力，锻炼工程实践和创新思维，为以后的工作和深造发展打下坚实基础。

1.2 国内外研究现状和发展趋势

1.2.1 传统情绪识别方法

早期人脸情绪识别研究主要采用手工设计特征与分类器相结合的方式。常用的特征包括局部二值模式（LBP）、方向梯度直方图（HOG）、Gabor小波等，分类器则多采用支持向量机（SVM）、Adaboost等。例如，LBP特征能够描述局部纹理信息，对光照变化具有一定鲁棒性；HOG特征通过统计梯度方向分布，捕捉面部边缘轮廓。然而，这些手工特征难以全面刻画复杂的面部肌肉运动模式，且对姿态变化敏感，导致识别精度有限。

1.2.2 基于深度学习的情绪识别方法

随着深度学习的兴起，卷积神经网络凭借其强大的特征自动提取能力，成为人脸情绪识别的主流方法。姜冰等（2022）基于AlexNet网络进行人脸情绪识别研究，验证了深度网络的有效性 $1$ 。王昕宇（2024）提出基于VGG16改进的深度可分离卷积网络，在降低参数量的同时保持较高准确率 $2$ 。黄宗翔（2023）针对数据集规模小和不平衡问题，采用数据增强与模型优化策略，并应用于AI情绪测评系统 $3$ 。刘义凡（2023）系统研究了深度学习在人脸表情识别中的应用，强调了其在复杂场景下的优势 $4$ 。

为进一步提升性能，研究者引入更先进的网络结构。Kırbız（2024）采用ResNet34残差网络结合随机数据增强，在合并FER数据集上达到81%准确率，表明残差连接能有效缓解梯度消失 $5$ 。Tong Lian等（2023）提出自感知人脸情绪加速识别算法（SFEARA），通过关键区域与非关键区域的混合精度计算，提升计算效率并降低能耗 $6$ 。Tang与Jin（2024）融合VGGNet与CliqueNet，并加入CBAM注意力模块，在测试集上获得93.11%的高准确率 $7$ 。Ranjan与Ravinder（2025）采用空间关系感知图神经网络（SRAGNN）结合优化算法，在视频会议疲劳缓解场景中实现高效识别 $8$ 。Mou Hongwei等（2025）设计12层CNN模型，通过数据增强与早停机制，在FER2013测试集上达到99.2%准确率，显示了CNN的潜力 $9$ 。

1.3 当前研究面临的主要问题

综合现有研究，人脸情绪识别仍存在以下主要问题：

类间相似性与类内差异性：不同情绪（如Fear与Sad）在面部表现上可能存在重叠，同一情绪在不同个体上表现差异较大，导致特征难以区分。

数据不平衡：FER-2013等公开数据集中，Disgust、Fear等类别样本较少，模型易偏向多数类，影响整体性能。

模型泛化能力：在实验室环境下训练的高精度模型，迁移到真实场景时往往因光照、遮挡等因素而性能下降。

1.4 本文主要研究内容与创新点

本文以FER-2013数据集为基础，围绕人脸情绪识别算法展开研究，主要内容包括：

1、构建基准CNN模型，分析其在各类别上的性能瓶颈。

2、引入残差连接与SE注意力模块，改进网络结构以增强特征提取能力。

3、采用增强型数据增强策略（包括Cutout、亮度/对比度调整）提升模型鲁棒性。

4、应用困难样本过采样（RandomOverSampler）处理类别不平衡问题。

5、设计对比实验，验证各优化模块的有效性，并综合评估最终模型性能。

本文的创新点如下：

1、将残差连接与SE注意力模块结合，构建适用于小尺寸人脸图像的轻量级深度网络。

2、综合运用几何变换、色彩调整和Cutout遮挡等多种数据增强手段，提升模型泛化能力。

3、针对Fear、Sad等困难类别，采用过采样策略显著提升其识别准确率。

2 相关理论与技术基础

2.1 人脸情绪识别概述

人脸情绪识别是指通过分析人脸图像或视频序列，判断个体当前情绪状态的过程。常见的情绪分类模型采用Ekman提出的六种基本情绪（愤怒、厌恶、恐惧、高兴、悲伤、惊讶）加上中性情绪，共七类。人脸图像通常需要经过预处理步骤，包括人脸检测、对齐、尺寸归一化等，以消除背景和姿态干扰。

2.2 卷积神经网络基础

卷积神经网络（Convolutional Neural Network, CNN）是一种专门用于处理网格结构数据（如图像）的深度学习架构。典型的CNN由输入层、多个交替堆叠的卷积层与池化层、全连接层和输出层组成，其整体架构可抽象为图2.1所示。

图2.1 卷积神经网络整体架构示意图

图2.1展示了一个典型CNN的信息流：输入图像经多层卷积与池化操作逐步提取高层语义特征，最后由全连接层将特征映射至类别概率。下面详细介绍各核心组件的原理。

2.2.1 卷积层、池化层、全连接层

卷积层是CNN的核心构建块。它通过若干个可学习的卷积核（滤波器）在输入特征图上滑动，执行局部加权求和操作，从而提取局部模式（如边缘、纹理、角点等）。

2.2.2 激活函数与批归一化

激活函数为网络引入非线性变换能力，使模型能够拟合复杂的函数映射。ReLU（Rectified Linear Unit）是目前应用最广泛的激活函数

2.2.3 Dropout与正则化

Dropout由Srivastava等提出，在训练时以概率p随机"丢弃"神经元（将其输出置零），测试时则保留所有神经元，但将输出乘以1-p（或采用反向Dropout在训练时缩放）。

2.3 经典网络架构

2.3.1 VGGNet

VGGNet采用连续的小卷积核（3×3）堆叠，构建深度网络，结构简洁但参数量较大。

2.3.2 ResNet（残差网络）

ResNet通过引入残差连接（shortcut connection）解决深层网络梯度消失问题。

2.3.3 SENet（压缩激励网络）

SENet引入注意力机制，通过显式建模通道之间的相互依赖关系，自适应重标定特征通道。

2.4 数据增强技术

数据增强（Data Augmentation）是在不改变数据标签的前提下，对训练样本施加随机变换，以增大训练集的有效规模和多样性，从而抑制过拟合、提高模型泛化能力。对于人脸情绪识别而言，引入数据增强能够模拟真实场景中可能遇到的光照变化、姿态偏移和局部遮挡，使模型学习到更具鲁棒性的特征表示。

2.4.1 几何变换

几何变换改变图像中像素的空间位置关系，主要类型有：

仿射变换是最一般的平面几何变换，

2.4.2 色彩调整

色彩调整通过改变像素的强度值来模拟多样化的光照条件：

2.4.3 Cutout遮挡

Cutout由DeVries和Taylor提出，通过在图像中随机放置一个遮挡块来模拟局部遮挡，形式化表示为对原图像施加二值掩膜

2.4.4 综合增强策略

实际训练中，上述增强操作以一定概率随机组合、在线施加于每个训练批次，其流程可表示为复合

2.5 迁移学习与集成学习

迁移学习（Transfer Learning）是一种机器学习方法，旨在将从一个领域和任务中学到的知识，迁移到一个相关但不同的领域和任务中，以提升目标任务上的学习效率与泛化性能。其核心思想是利用在大型通用数据集上习得的通用特征表示，缓解目标数据集规模有限、标注不足的问题。

3 数据集分析与预处理

3.1 FER-2013数据集介绍

3.1.1 数据来源与组成

FER-2013数据集由Pierre-Luc Carrier和Aaron Courville于2013年创建，广泛应用于人脸情绪识别研究。数据集包含35,887张48×48像素的灰度人脸图像，每张图像被标注为七种情绪之一：愤怒（Angry）、厌恶（Disgust）、恐惧（Fear）、高兴（Happy）、悲伤（Sad）、惊讶（Surprise）、中性（Neutral）。图像已进行粗略对齐，但存在一定的姿态和光照变化。

3.1.2 样本分布分析

数据集中各类别样本数量统计如表3.1所示。由表可见，Disgust类别样本极少（仅600张左右），而Happy类别样本最多（约9000张），呈现明显的不平衡分布。这种不平衡会导致模型偏向多数类，影响对少数类的识别性能。

表3.1 FER-2013数据集各类别样本数量

|----------|-------|------|------|-------|
| 情绪 | 训练集 | 验证集 | 测试集 | 总计 |
| Angry | 3995 | 491 | 496 | 4982 |
| Disgust | 436 | 55 | 54 | 545 |
| Fear | 4097 | 512 | 512 | 5121 |
| Happy | 7215 | 879 | 899 | 8993 |
| Sad | 4830 | 594 | 608 | 6032 |
| Surprise | 3171 | 416 | 400 | 3987 |
| Neutral | 4965 | 626 | 620 | 6211 |
| 总计 | 28709 | 3573 | 3589 | 35871 |

3.1.3 数据特点与挑战

低分辨率：48×48像素限制了细节信息，对特征提取提出更高要求。

类间相似性：如Fear与Sad的表情有时难以区分，Angry与Disgust也有混淆。

光照与姿态变化：部分图像存在头部偏转、光照不均等问题，增加了识别难度。

3.2 数据清洗与标准化

3.2.1 无效样本检测与剔除

原始CSV文件中，像素值以空格分隔的字符串存储。加载时需检查每个样本的像素数是否为2304（48×48），若不是则视为无效并跳过。经统计，FER-2013原始文件中仅存在个别无效样本（如第27373行像素数为234），经剔除后有效样本为35887张。

3.2.2 图像归一化处理

为加速模型收敛，将像素值从0~255线性映射到 $0,1$ 区间

3.2.3 数据集划分

FER-2013官方已划分训练集（28,709张）、验证集（PublicTest，3,573张）和测试集（PrivateTest，3,589张）。本文沿用此划分，以保证实验结果的可比性。划分后的各类别分布如表3-1所示。

图3.1 FER-2013数据集各类别样本数量分布柱状图

图3-1直观展示了各类别样本数量的不平衡，Disgust明显偏少，Happy最多。

图3.1 原始图像与清洗后图像对比图

图3-2展示了同一张人脸图像在原始像素（0-255）与归一化后（显示时乘以255恢复亮度）的视觉对比，二者在视觉上无差异，但数值范围已调整至模型易于处理的区间。

3.3 类别不平衡分析

类别不平衡对模型训练影响显著。以基准模型训练为例，若不进行处理，模型会倾向于将模糊样本预测为多数类（如Happy或Neutral），导致Fear、Sad等类别召回率偏低。因此，需要采取针对性策略，如类别权重或过采样。

4 基准情绪识别模型构建与评估

4.1 基准CNN模型设计

4.1.1 网络结构

本文首先构建一个多层CNN作为基准模型，结构如图4-1所示。该模型包含三个卷积块，每个卷积块由两个卷积层（Conv2D）、批归一化（BN）、最大池化（MaxPooling）和Dropout组成。之后使用全局平均池化（GAP）代替全连接层以减少参数量，最后接一个全连接层输出7类概率。

图4.1 基准CNN模型结构图

具体参数配置如下：

输入：48×48×1

Conv2D 64, 3×3, ReLU → BN → Conv2D 64, 3×3, ReLU → BN → MaxPooling 2×2 → Dropout 0.25

Conv2D 128, 3×3, ReLU → BN → Conv2D 128, 3×3, ReLU → BN → MaxPooling 2×2 → Dropout 0.25

Conv2D 256, 3×3, ReLU → BN → Conv2D 256, 3×3, ReLU → BN → MaxPooling 2×2 → Dropout 0.25

GlobalAveragePooling2D

Dense 512, ReLU → BN → Dropout 0.5

Dense 7, Softmax

模型总参数量约128万，适合在有限数据上训练

4.1.2 损失函数与优化器

采用交叉熵损失函数为预测概率。优化器选用Adam，初始学习率0.001。

4.1.3 训练超参数设置

批次大小：64

最大迭代轮数：100

早停策略：验证损失连续10轮不下降则停止

学习率衰减：验证损失连续5轮不下降则学习率减半

模型保存：根据验证准确率保存最佳模型。

4.2 实验设置

4.2.1 软硬件环境

操作系统：Ubuntu 20.04

CPU：Intel Xeon

GPU：NVIDIA GeForce RTX 4090 D (24GB)

深度学习框架：TensorFlow 2.x

编程语言：Python 3.8：

4.2.2 评价指标

采用准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1-score作为评价指标。混淆矩阵用于直观展示各类别预测情况。。

4.3 基准模型实验结果

4.3.1 训练过程分析

图4-2展示了基准模型在训练过程中的损失和准确率变化曲线。随着迭代进行，训练损失持续下降，训练准确率上升至约76.5%；验证损失在初期下降后略有波动，验证准确率稳定在67%左右，表明模型存在一定的过拟合。

图4.2 基准模型训练损失与准确率曲线

4.3.2 测试集性能

在测试集上的准确率为67.15%，各类别的详细指标如表4-1所示。

表4.1 基准模型在各类别上的评价指标

|------------|-------------|-------------|------------------|---------------|
| 情绪 | 精确率 | 召回率 | F1-score | 支持样本数 |
| Angry | 0.58 | 0.62 | 0.6 | 496 |
| Disgust | 0.64 | 0.75 | 0.69 | 54 |
| Fear | 0.56 | 0.42 | 0.48 | 512 |
| Happy | 0.9 | 0.87 | 0.88 | 899 |
| Sad | 0.54 | 0.48 | 0.51 | 608 |
| Surprise | 0.72 | 0.81 | 0.76 | 400 |
| Neutral | 0.6 | 0.73 | 0.65 | 620 |
| 整体 | 0.67 | 0.67 | 0.67 | 3589 |

4.3.3 混淆矩阵与分类报告

图4-3为基准模型在测试集上的混淆矩阵。可见多数样本集中在主对角线，但Fear与Sad、Fear与Angry之间存在较多误分类。Disgust由于样本极少，虽召回率较高但波动大。

图4.3 基准模型混淆矩阵

4.4 基准模型问题诊断

从表4-1可看出，Fear和Sad的F1-score仅为0.48和0.51，明显低于平均水平。其原因在于：

Fear与Sad、Angry在面部肌肉运动上存在相似性，特征不易区分。

样本数量虽不少，但特征模糊，模型难以捕捉关键差异。

数据集中部分Fear图像实际可能被误标，加剧了学习难度。

此外，Disgust虽然样本极少，但通过类别权重调整，召回率尚可，但精确率较低，易被误分为Angry或Sad。

5 基于残差注意力机制的模型优化

5.1 残差网络原理与优势

如2.3.2节所述，残差网络通过恒等映射缓解深层网络的梯度消失问题，使网络能够更深且更易训练。对于小尺寸人脸图像，加深网络有助于提取更抽象的特征，但必须配合残差连接防止退化。

5.2 注意力机制（SE模块）

SE模块通过自动学习通道权重，强调重要特征、抑制无关特征，已在多项视觉任务中验证其有效性。将SE模块嵌入残差块中，可使网络聚焦于关键面部区域（如眼睛、嘴巴）的特征通道。

5.3 改进网络结构设计

5.3.1 整体架构

改进后的网络结构如图5-1所示。仍采用三个卷积阶段，但将普通卷积块替换为带SE的残差块。每个残差块包含两个卷积层、BN、ReLU，以及跳跃连接；SE模块加在残差块输出之后。

图5.1 改进的残差注意力网络整体架构图

5.3.2 参数配置与复杂度分析

模型具体配置如下：

输入：48×48×1

初始卷积：Conv64, 3×3, stride=2, padding=same → BN → ReLU → MaxPooling 2×2

Stage1：2个残差块（ResBlock-SE），64通道

Stage2：2个残差块（ResBlock-SE），128通道

Stage3：2个残差块（ResBlock-SE），256通道

GlobalAveragePooling2D → Dropout 0.5 → Dense 512 → Dropout 0.3 → Dense7

每个残差块结构如图5-2所示。

图5.2 嵌入SE模块的残差块细节图

参数量约150万，略高于基准模型，但计算量（FLOPs）相当，主要增加来自SE模块中的两个全连接层。

5.4 实验结果与分析

5.4.1 训练曲线对比

图5-3将改进模型与基准模型的训练曲线叠放在一起。改进模型训练损失下降更快，训练准确率最终达到86%以上，验证准确率峰值提升至68.2%。

图5.3 改进模型与基准模型训练曲线对比

5.4.2 性能对比

改进模型在测试集上的准确率为68.7%，较基准提升1.5个百分点。各类别F1-score对比如表5-1所示。

表5.1 改进模型与基准模型各类别F1-score对比

|----------|------|------|-------|
| 情绪 | 基准F1 | 改进F1 | 变化 |
| Angry | 0.6 | 0.62 | 0.02 |
| Disgust | 0.69 | 0.65 | -0.04 |
| Fear | 0.48 | 0.51 | 0.03 |
| Happy | 0.88 | 0.89 | 0.01 |
| Sad | 0.51 | 0.55 | 0.04 |
| Surprise | 0.76 | 0.78 | 0.02 |
| Neutral | 0.65 | 0.66 | 0.01 |

可见除Disgust外，其他类别均有提升，Fear和Sad提升较明显。Disgust下降可能与样本极少且SE模块过度拟合有关。

5.4.3 消融实验

为验证残差连接和SE模块各自的作用，设计了消融实验，结果如表5-2所示。单独使用残差连接（不加SE）使准确率提升至68.1%，单独加入SE（不加残差）提升至67.8%，两者结合效果最佳，说明二者互补。

表5.2 消融实验结果

|--------------|--------|
| 模型配置 | 测试准确率 |
| 基准 | 67.15% |
| 基准 + 残差 | 68.10% |
| 基准 + SE | 67.80% |
| 基准 + 残差 + SE | 68.70% |

5.5 本章小结

本章在基准模型基础上引入残差连接与SE注意力模块，构建了改进的残差注意力网络。实验证明，该结构能有效提升模型对Fear、Sad等困难类别的识别能力，整体准确率提高至68.7%。

6 数据增强与类别不平衡处理优化

6.1 增强型数据增强策略

6.1.1 几何变换与色彩调整

除常规的随机旋转、平移、缩放和水平翻转外，本文增加了亮度调整和对比度调整，以模拟真实环境中的光照变化。亮度调整随机增减像素值，对比度调整通过线性变换拉伸或压缩灰度范围。

6.1.2 Cutout遮挡实现

Cutout随机在图像中遮挡一个方形区域（大小为8×8），强制模型利用其他区域的特征进行判断，提高鲁棒性。图6-1展示了原始图像与施加Cutout后的图像对比。

图6.1 Cutout增强效果示意图

6.1.3 亮度/对比度自适应调整

具体实现时，亮度调整因子在 $-0.2, 0.2$ 内随机，对比度因子在 $0.8, 1.2$ 内随机。所有增强操作在训练时在线进行，不增加训练集存储。

6.2 类别不平衡处理方法

6.2.1 随机过采样

针对Fear和Sad两类样本数量虽不少但特征模糊的问题，本文采用随机过采样策略，从训练集中复制这两类的部分样本，使各类别样本数趋于平衡。过采样后训练集大小增至约36000张，各类样本数接近。

6.2.2 类别权重调整

作为对比，也尝试了在损失函数中为各类别赋予权重的方法，权重值与类别频率成反比。过采样与权重调整可结合使用，本文实验发现过采样对Fear、Sad的提升更直接。

6.2.3 过采样后样本分布

过采样后各类别样本数量如表6-1所示。Fear和Sad的样本数增加至与Happy相当，但复制样本可能导致过拟合，需配合数据增强缓解。

表6.1 过采样前后各类别样本数对比

|----------|-------|-------|
| 情绪 | 原始训练集 | 过采样后 |
| Angry | 3995 | 3995 |
| Disgust | 436 | 436 |
| Fear | 4097 | 7200 |
| Happy | 7215 | 7215 |
| Sad | 4830 | 7200 |
| Surprise | 3171 | 3171 |
| Neutral | 4965 | 4965 |
| 总计 | 28709 | 36182 |

6.3 实验验证

6.3.1 数据增强效果评估

在改进模型（残差+SE）基础上，分别测试不同增强策略的效果。表6-2显示，添加几何变换+色彩调整使准确率提升0.3%，进一步加入Cutout再提升0.2%，表明增强组合有效。

表6.2 不同数据增强策略实验结果

|--------------|--------|
| 数据增强配置 | 测试准确率 |
| 无增强 | 68.70% |
| 几何+色彩 | 69.00% |
| 几何+色彩+Cutout | 69.20% |

6.3.2 过采样对困难类别的提升

在增强策略基础上，应用过采样，结果如表6-3所示。Fear的F1-score从0.53提升至0.58，Sad从0.56提升至0.60，说明过采样有效改善了这两类的识别。但Disgust的F1-score略有下降（0.65→0.63），可能因过采样后其他类样本增多，Disgust相对比例仍低。

表6.3 过采样前后各类别样本数对比

|------|----------|------|------|
| 类别 | 指标 | 过采样前 | 过采样后 |
| Fear | 召回率 | 0.53 | 0.6 |
| | F1-score | 0.53 | 0.58 |
| Sad | 召回率 | 0.55 | 0.59 |
| | F1-score | 0.56 | 0.6 |

6.3.2 综合策略性能

将残差+SE、数据增强（几何+色彩+Cutout）和过采样三者结合，最终模型在测试集上的准确率达到69.04%，各类别详细指标见第八章表8-1。

6.2 本章小结

本章通过引入增强型数据增强和过采样策略，进一步优化了模型性能。实验证明，综合策略能有效提升Fear和Sad的识别准确率，最终模型准确率提升至69.04%，较基准模型提高约2个百分点。

7 迁移学习与集成学习探索

7.1 迁移学习应用

7.1.1 预训练模型选择

选取在ImageNet上预训练的ResNet50作为特征提取器，将输入灰度图复制三通道并调整至224×224，以适应ResNet输入尺寸。保留ResNet50的卷积基，移除顶层，添加全局平均池化层、全连接层（512）和输出层。

7.1.2 输入适配与微调策略

初始训练时冻结ResNet50的所有层，仅训练新增层；20个epoch后解冻部分高层（后50%层），以较小学习率（1e-5）进行微调。

7.1.3 迁移学习性能分析

在相同训练条件下，迁移学习模型在测试集上达到70.3%准确率，高于从头训练的模型。但由于输入尺寸增大，训练速度较慢，且需更多显存。表7-1对比了迁移学习与本文优化模型的结果。

表7.1 迁移学习与优化模型性能对比

|--------|--------|------|--------|
| 模型 | 测试准确率 | 参数量 | 训练时间 |
| 模型 | 测试准确率 | 参数量 | 训练时间 |
| 本文优化模型 | 69.04% | 1.5M | 约30min |

7.2 集成学习算法

7.2.1 多模型投票机制

集成学习采用三个不同初始化（随机种子不同）的优化模型（残差+SE+增强+过采样）进行训练，最后对它们的预测概率取平均作为最终输出。这种方式可降低单个模型的方差。

7.2.2 模型差异性构建

通过改变随机种子和训练数据顺序，使三个模型具有差异性。每个模型独立训练至收敛，保存最佳权重。

7.2.3 集成模型性能评估

集成模型在测试集上准确率达到69.8%，高于单个最优模型（69.04%），表明集成学习有效。表7-2列出各子模型及集成结果。模型1、模型2、模型3指的是三个具有相同网络结构但不同随机初始化的优化模型。模型1、模型2、模型3本质上是同一优化算法的三个独立实例，而非不同类型的模型。表中给出的测试准确率（69.04%、68.9%、68.7%）是它们各自在测试集上的表现，集成后的准确率（69.8%）通过简单平均概率获得。三个模型的随机种子分别为 42, 43, 44，导致权重初始化不同以及训练时 mini-batch 的 shuffle 顺序不同。这使得它们收敛到不同的局部最优解，从而在集成时能够互补，提升整体性能。

表7.2 集成模型性能

|--------|--------|
| 模型 | 测试准确率 |
| 模型 | 测试准确率 |
| 模型1 | 69.04% |
| 模型2 | 68.9% |
| 模型3 | 68.7% |
| 集成（平均） | 69.8 |

7.3 本章小结

本章初步探索了迁移学习和集成学习在人脸情绪识别中的应用。迁移学习可借助大规模预训练知识提升准确率，但计算成本高；集成学习能在不增加推理时间（可并行）的前提下提升性能。二者均为未来优化的可行方向。

8 综合实验与结果分析

8.1 实验设置

数据集：FER-2013，沿用官方划分。

对比方法：包括基准模型、残差+SE模型、数据增强模型、过采样模型、迁移学习模型及集成模型。

评价指标：准确率、各类别F1-score、混淆矩阵。

8.2 各优化模块性能对比

表8-1汇总了各阶段模型的测试准确率，图8-1用柱状图直观展示了提升过程。

表8.1 各模型测试准确率汇总

|--------------------|--------|
| 模型 | 测试准确率 |
| 基准CNN | 67.15% |
| 残差+SE | 68.70% |
| 数据增强(几何+色彩+Cutout) | 69.20% |
| 过采样(最终模型) | 69.04% |
| 迁移学习（ResNet50） | 70.30% |
| 集成学习（3模型投票） | 69.80% |
| 基准CNN | 67.15% |

图8.1 各优化模块性能提升柱状对比图

8.3 最终算法性能

最终模型（残差+SE+数据增强+过采样）在测试集上的详细分类报告如表8-2所示，混淆矩阵如图8-2。

表8.2 最终模型在各类别上的评价指标

|----------|------|------|----------|-------|
| 情绪 | 精确率 | 召回率 | F1-score | 支持样本数 |
| Angry | 0.62 | 0.61 | 0.62 | 496 |
| Disgust | 0.78 | 0.57 | 0.66 | 54 |
| Fear | 0.51 | 0.55 | 0.53 | 512 |
| Happy | 0.89 | 0.89 | 0.89 | 899 |
| Sad | 0.59 | 0.57 | 0.58 | 608 |
| Surprise | 0.79 | 0.78 | 0.78 | 400 |
| Neutral | 0.65 | 0.66 | 0.66 | 620 |
| 整体 | 0.69 | 0.69 | 0.69 | 3589 |

图8.2 最终模型混淆矩阵

8.4 算法局限性讨论

Disgust类识别仍不稳定，样本过少导致过拟合风险。

模型对模糊、低质量图像鲁棒性有限，真实场景中需结合人脸检测和预处理。

未进行跨数据集测试，泛化能力有待验证。