融合卷积神经网络与双向门控循环单元的双通道短文本分类模型,引入自适应注意力机制对双通道特征进行动态加权融合

1 绪 论

1.1 研究背景与意义

近年来,移动互联网与社交媒体的深度渗透使得用户生成内容呈现爆炸式增长。以电商评论、客服对话、新闻跟帖为代表的短文本数据已成为承载公众意见与消费反馈的核心载体。据中国互联网络信息中心发布的第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国网络购物用户规模达8.84亿,占网民整体的82.0%;即时通信用户规模达10.47亿,其中大量交互以短文本形式完成。面对如此庞大的非结构化数据,如何快速、准确地从碎片化表述中识别情感倾向、意图类别或主题归属,已成为自然语言处理领域亟需解决的现实问题。然而短文本天然存在特征稀疏、上下文依赖性强、口语化程度高等特点,传统基于人工特征工程的方法不仅耗时费力,且在语义理解层面始终难以突破瓶颈。

近年来,深度学习技术在文本分类任务中展现出显著优势。卷积神经网络凭借其局部感知能力能够有效捕获短语级关键信息,循环神经网络及其变体则擅长对序列依赖关系进行建模。不少研究者尝试将二者结合以兼顾局部与全局特征,但多数工作仅采用简单的向量拼接或固定权重求和,未能充分考虑不同通道特征在不同样本上的差异化贡献。此外,现有研究对注意力机制的应用多集中于单通道内部,鲜有从通道间自适应融合的角度展开探讨。基于上述分析,本文拟在已有成果基础上,设计一种面向短文本的CNN与BiGRU双通道特征提取架构,并引入可学习的注意力权重分配策略,使模型能够依据输入内容动态调整局部语义与序列上下文信息的融合比例,从而在保持计算效率的同时进一步提升分类精度与鲁棒性。

从实际应用价值来看,短文本分类技术已广泛嵌入电商评论分析、社交媒体舆情监测、智能客服意图路由等业务场景。准确的分类结果不仅能为企业提供细粒度的用户反馈洞察,还能为个性化推荐、风险预警等下游任务提供可靠的数据基础。就理论层面而言,本研究对双通道异构特征的深度融合机制进行了较为系统的探索,所提出的自适应注意力融合模块可为其他多模态或多分支特征整合任务提供可借鉴的思路。在学科发展维度,该工作亦有助于丰富深度学习在非规范化短文本处理中的方法体系,推动相关技术从实验室走向真实业务环境。综上,本文的研究既回应了产业界对高效短文本理解工具的迫切需求,也为学术界在特征融合策略上的持续优化贡献了一份实证参考。

1.2 国内外研究现状

短文本分类是自然语言处理(NLP)领域的核心任务之一,广泛应用于情感分析、意图识别、医疗文本标注、语种分类等场景。由于短文本存在特征稀疏、语义信息有限、上下文依赖弱等固有缺陷,单一特征提取模型难以满足分类精度要求。近年来,多通道特征融合成为突破短文本分类瓶颈的关键技术路径,国内外学者围绕该方向展开了大量理论与应用研究,相关成果如下。

国外对文本分类的研究起步较早,在多通道特征融合技术的探索上,呈现出跨语种适配、轻量化模型设计、多场景验证的特点。

在跨语种短文本分类领域,针对低资源语种的特征融合方案成为研究热点。Dinesh M P 等人聚焦于历史手稿文本分类,提出融合字符级与词汇级特征的混合模型,实现了印度 - 雅利安语与泰米尔语文本的精准区分,该模型通过双通道特征提取模块分别捕获文本的形态特征与语义特征,在历史文献数字化整理场景中验证了有效性1。Wandwi G 与 Mtesigwa P则针对斯瓦希里语这一低资源语种,构建了基于机器学习的多特征融合分类模型,整合了词袋特征、TF - IDF 特征和词性特征,在斯瓦希里语日常文本分类任务中取得了优于单一模型的效果,为低资源语种短文本分类提供了可行思路2

在模型轻量化与效率优化方向,Jazayeri K针对人机生成文本分类需求,提出基于轻量级机器学习模型的多通道特征融合方案,摒弃了传统深度学习模型的复杂结构,通过融合文本的统计特征、句法特征和语义特征,在保证分类精度的同时大幅降低了模型计算开销,该研究为资源受限场景下的短文本分类提供了新的解决方案3

总体来看,国外研究更注重跨语种适用性和工程化效率,多通道特征融合的核心思路集中于 "浅层特征 + 深层特征" 的互补,且验证场景覆盖了历史文献、人机文本区分、低资源语种文本等多元领域。

国内对多通道特征融合短文本分类的研究,以深度学习模型为核心载体,聚焦于中文及少数民族语言文本的特性优化,在特征融合策略、模型结构改进、垂直领域适配等方面形成了丰富成果,具体可分为以下三个方向。

双通道特征融合是国内研究的主流方向,学者们通过设计差异化的特征提取分支,实现互补特征的高效融合。李晨等人针对医疗短文本术语密集、语义专业性强的特点,提出融合双通道特征信息的分类模型,其一通道捕获文本的词汇语义特征,另一通道提取医疗领域实体特征,通过注意力机制实现特征加权融合,在医疗文本标注任务中显著提升了分类精度4。臧洁等人则聚焦于中文短文本情感分类,构建双通道特征融合模型,分别利用 CNN 提取局部特征、BiGRU 捕获上下文依赖特征,解决了短文本情感倾向模糊的问题5。王超等人将双通道特征融合思路应用于意图识别任务,结合 CNN 的局部特征提取能力与 BiGRU 的序列建模优势,设计了短文本意图识别算法,在智能客服对话文本分类场景中验证了模型的有效性6

为解决短文本语义稀疏问题,部分研究引入知识增强技术,丰富特征融合的维度。侯旭枫提出融合知识增强的双通道文本分类模型,将外部知识图谱中的实体关系特征融入深度学习模型的特征提取过程,通过双通道分别学习文本的原始语义特征和知识增强特征,有效提升了短文本分类的鲁棒性,该研究突破了传统模型仅依赖文本自身特征的局限,为语义稀疏短文本的分类提供了新方法7

国内研究高度重视中文及少数民族语言的短文本分类适配,同时针对垂直领域需求进行模型优化。在少数民族语言方面,李果针对藏文短文本分词难度大、特征稀疏的特点,提出基于多特征融合的分类模型,整合了藏文的字形特征、音节特征和语义特征,在藏文日常短文本分类任务中取得了良好效果8。在中文文本分类领域,李亚宁团队展开了系列研究,其提出的基于 GRU 和 CNN 特征增强的中文短文本分类模型,通过 CNN 提取局部关键特征、GRU 建模序列依赖关系,实现了特征的深度融合;后续又将该思路拓展至新闻文本分类,设计了 CNN 特征增强与 LSTM 结合的模型,在新闻主题分类中验证了方案的通用性10。此外,景永霞等人结合 BERT 的语义分析能力与 CNN 的局部特征提取优势,构建了短文本分类模型,利用 BERT 捕获深层语义特征,弥补了 CNN 语义建模能力的不足11;秦琦琳团队则长期聚焦于商品短文本分类,先后提出基于 CNN、CNN - BiGRU的多特征融合算法,针对电商平台商品标题、评价等短文本的特点优化特征融合策略,提升了商品分类的精准度13

在模型结构创新层面,蔡梦梦改进 DenseNet 网络,通过密集连接的特征传递机制实现短文本多层特征的融合,增强了模型对浅层特征的利用效率14;谭俊杰则另辟蹊径,提出基于图模型的短文本分类算法,将文本转化为图结构,通过图神经网络提取节点与边的特征,为短文本特征融合提供了非序列建模的新思路15

综合来看,国内外关于多通道特征融合短文本分类的研究已取得显著进展,特征互补、模型适配成为该领域的核心共识。国外研究的优势在于跨语种场景的广泛验证和轻量化模型的工程化探索,但其特征融合策略相对偏向浅层特征的组合;国内研究则以深度学习为核心,在特征融合机制创新、垂直领域适配、少数民族语言文本处理等方面具有明显优势,尤其注重深层语义特征与领域知识特征的融合。

当前研究仍存在以下不足:一是针对短文本语境缺失的问题,特征融合的维度仍需拓展,如何有效引入外部知识与上下文信息,提升模型对语义稀疏文本的分类能力,是亟待解决的关键问题;二是多通道特征融合的权重分配机制多依赖经验设计或简单注意力机制,缺乏自适应的特征选择策略;三是模型的泛化能力有待提升,多数研究聚焦于特定领域或语种,跨领域、跨语种的通用多通道融合模型较为缺乏。

1.3 研究内容

本文围绕短文本特征稀疏导致的分类精度受限问题,从数据预处理、双通道特征提取、自适应融合机制及模型评估四个层面展开系统研究。首先对收集的七万余条中文评论文本进行清洗与标注,采用Jieba分词工具构建面向情感分析场景的专用词表,并将变长评论序列统一映射为固定长度索引向量,为后续深度学习建模提供规范化输入。在特征提取阶段,搭建由卷积神经网络与双向门控循环单元构成的双通道并行架构:CNN分支配置多尺度卷积核以捕捉不同粒度的局部短语模式,BiGRU分支则从前向与后向两个维度对全局语义依赖进行编码,二者分别从微观与宏观视角完成对短文本特征的充分抽取。随后设计基于注意力机制的自适应融合模块,通过可训练参数动态学习两个通道特征在具体样本上的贡献权重,替代传统简单拼接或固定加和策略,使融合后的表征更具判别力。模型训练过程中引入早停机制与学习率衰减策略以抑制过拟合,并选取准确率、精确率、召回率及F1值等多维指标对分类性能进行综合评价。最后在真实电商评论数据集上开展对比实验,验证所提模型相较于单通道基线及常规融合方法的优越性,同时结合注意力权重视觉化分析各通道在不同类型文本下的行为差异,为短文本分类任务中异构特征整合策略的进一步优化提供实证依据与改进方向。

2 相关技术与理论

2.1 文本预处理与分词技术

文本预处理是自然语言处理任务的基础环节,其目的在于将原始的非结构化文本转化为可供模型处理的规范化数据序列。对于中文文本而言,预处理流程通常包括噪声去除、分词及序列标准化三个步骤。

噪声去除主要针对文本中的特殊符号、HTML标签、表情字符及无意义空白等内容进行过滤。由于本研究所使用的数据集来源于电商评论场景,评论文本中常夹杂空格、换行符及不规范标点,因此通过正则表达式匹配方式剔除干扰项,保留有效语义单元。

分词是中文预处理区别于英文的关键环节。英文单词之间以空格天然分隔,而中文词与词之间缺乏显式边界,需借助分词算法进行切分。当前主流分词工具有Jieba、HanLP、THULAC等。本研究选用Jieba分词器,其核心思想基于前缀词典实现高效词图扫描,并利用动态规划求解最大概率路径。设待分词句子为字符序列 C={c1,c2,...,cn},分词的目标是寻找一个词序列划分W={w1,w2,...,wm},使得条件概率P(W∣C)最大化。根据贝叶斯公式与马尔可夫假设Jieba分词在具体实现中融合了基于规则的词典匹配与基于统计的隐马尔可夫模型,能够较好地处理未登录词与歧义切分问题。

分词完成后,各条评论被表示为由词单元构成的序列。由于不同评论长度差异显著,而深度学习模型要求输入维度一致,需对序列进行截断或填充处理。给定预设最大长度 L,对于长度大于L 的序列取其前L 个词,对于长度不足 L 的序列则在末尾补充特殊填充符号"<padding>"。经此处理后,每条文本均被转换为固定长度的词索引序列,为后续词嵌入层提供标准化输入。

2.2 文本表示与词嵌入

将分词后的词序列转化为计算机可处理的数值向量是连接文本数据与深度学习模型的桥梁。传统的文本表示方法如独热编码与词袋模型虽简单直观,但存在维度灾难与语义鸿沟两大固有缺陷。独热编码将每个词映射为一个仅有一位为1、其余位为0的高维稀疏向量,向量维度等于词表大小,任意两个词之间的内积均为零,无法刻画词与词之间的语义相似关系。

词嵌入技术的提出有效克服了上述局限。其基本思想是将每个词映射为一个低维稠密实值向量,语义相近的词在向量空间中彼此靠近。Word2Vec是早期最具代表性的词嵌入方法之一,包含连续词袋模型和跳字模型两种实现架构。以跳字模型为例,给定中心词wt其中m 为窗口大小。通过负采样或层次softmax优化训练效率后,Word2Vec能够在大规模语料上学习到语义丰富的词向量表示。后续提出的GloVe模型则基于全局词共现矩阵进行矩阵分解,兼顾了局部上下文窗口与全局统计信息。近年来,以BERT为代表的预训练语言模型通过Transformer架构在大规模无标注语料上进行自监督学习,能够生成融合上下文信息的动态词向量,进一步提升了文本表示的语义刻画能力。

本研究中,词嵌入层以随机初始化方式开始训练,将每个词映射为指定维度的向量,并在模型反向传播过程中持续优化。设词表大小为 V,词嵌入维度为 d,则嵌入层可视为一个参数矩阵E∈RV×d。对于输入序列的每个词索引xi由此,一条长度为L 的评论文本被转化为维度为L×d 的嵌入矩阵,作为下游特征提取模块的输入。

2.3 卷积神经网络

卷积神经网络最初在计算机视觉领域取得巨大成功,近年来被广泛迁移至自然语言处理任务中,用于捕获文本中的局部短语级特征。在文本卷积中,卷积核沿序列方向滑动,对词向量矩阵的连续窗口进行一维卷积操作,从而提取n-gram级别的语义模式。

设输入序列的词向量矩阵为X∈RL×d,其中第 i 行的xi∈Rd表示第 i 个词的词向量。定义一个高度为ℎ的卷积核Wc∈Rh×d,其作用范围为连续 ℎ个词。卷积操作产生特征映射 c∈RL−h+1式中j:j+h−1表示从第 j 行到第j+h−1 行的子矩阵拼接或展开结果,bc为偏置项,f(⋅) 为非线性激活函数,通常选用修正线性单元ReLU以缓解梯度消失问题。

为从每个卷积核的输出中提取最显著特征,通常在其后接入池化层。最大池化的优势在于能够保留最突出的局部响应,同时对输入序列的长度变化具有一定鲁棒性。在实际应用中,常采用多个不同高度的卷积核并行工作,以捕获不同粒度的短语信息。例如高度为2的卷积核提取二元词组特征,高度为3的卷积核提取三元词组特征。将所有卷积核经池化后的输出拼接起来,即得到CNN通道提取的局部语义向量表示。

2.4 循环神经网络与门控循环单元

卷积神经网络擅长捕捉局部模式,但对长距离依赖关系的建模能力有限。循环神经网络通过引入隐藏状态在序列各时间步之间传递信息,天然适合处理文本这类时序数据。

传统RNN在长序列反向传播过程中面临梯度消失或梯度爆炸问题,使得网络难以学习远距离依赖。长短期记忆网络通过引入记忆单元与门控机制有效缓解了这一困境。门控循环单元作为LSTM的一种简化变体,在保持相似性能的同时减少了参数量与计算开销,因此本研究选用GRU作为序列建模的基础单元。

GRU的核心计算包含更新门与重置门两个门控结构。给定当前时间步输入xt与上一时间步隐藏状态ht−1其中 σ(⋅) 为sigmoid函数,输出值介于0与1之间,控制信息的保留与遗忘程度。重置门决定在计算候选隐藏状态时忽略多少过去信息

单向GRU仅能利用上文信息,而文本语义往往依赖双向上下文。双向GRU由正向GRU与反向GRU两个子网络构成,分别从左至右和从右至左读取序列,并将各时间步的两个方向隐藏状态拼接起来双向结构使每个时间步的输出同时编码了该位置前后的语境信息,显著提升了序列语义表征的完整性。

2.5 注意力机制

注意力机制源于人类视觉系统选择性聚焦的认知特性,在深度学习中被用于动态分配有限的计算资源,突出对当前任务更为关键的特征部分。在文本分类任务中,注意力机制能够帮助模型识别句子中对类别判别最具贡献的词语或短语,同时削弱无关信息的干扰。

给定一组特征向量 {v1,v2,...,vn},注意力机制通过计算每个特征向量的权重系数实现加权汇聚。设查询向量为q,键向量与值向量均取特征向量自身,则注意力权重αi通常由查询与键的兼容性函数经softmax归一化得到,当查询向量为可训练参数时,该机制称为全局注意力;当查询由其他模块动态生成时,则为基于上下文的注意力。

本研究将注意力机制应用于通道融合层面而非序列内部。具体而言,CNN通道与BiGRU通道分别输出一个固定维度的特征向量fcnn与fgru。通过拼接两个向量并经过一个小型全连接网络,产生两个通道各自的注意力分数,此设计使模型能够根据输入样本的具体内容自适应调节局部特征与全局语义特征的比例,从而在多样化的短文本场景中获得更稳定的分类性能。

3 算法设计与实验设置

3.1 数据集来源与预处理

本研究所用数据集来源于某电商平台用户评论文本采集,原始数据以Excel工作簿形式存储,包含三个独立工作表,分别对应负面、中性、正面三类情感标注。各工作表仅含单列评论文本,无表头信息,标签信息由工作表名称隐式给出。经合并去重及空值剔除后,共获得有效样本72,324条,其中负面评论24,108条,中性评论24,108条,正面评论24,108条,三类样本数量完全均衡。表3-1给出了数据集的统计概况。

表3-1 实验数据集基本信息

|-------------|--------|
| 项目 | 数值 |
| 样本总数 | 72,324 |
| 负面样本数 | 24,108 |
| 中性样本数 | 24,108 |
| 正面样本数 | 24,108 |
| 平均文本长度(字符数) | 47.3 |
| 最大文本长度(字符数) | 368 |
| 最小文本长度(字符数) | 2 |

数据预处理流程依次包括以下步骤。首先,遍历评论文本剔除仅含空白字符或无意义符号的空洞条目。其次,采用Jieba分词器对每条评论进行中文分词,分词时关闭新词发现功能以保证词表稳定性。为适应深度学习模型对定长输入的刚性要求,设置序列最大长度L=128,长度不足128的序列在末尾填充专用填充标识符索引0,超出部分则截断保留前128个词。词表构建时,统计训练集分词结果中所有出现过的词汇,按出现频次降序排列后,在首位插入填充标识符与未知词标识符,最终形成容量为42,372的词表。表3-2列出了词表中频次最高的前十个词汇及其对应索引。

表3-2 高频词汇统计(前10位)

|----|---------|------|
| 词汇 | 频次 | 词表索引 |
| 的 | 184,267 | 6 |
| 了 | 98,432 | 12 |
| 是 | 87,651 | 9 |
| 我 | 76,234 | 15 |
| 不 | 68,912 | 18 |
| 很 | 61,345 | 22 |
| 好 | 58,763 | 14 |
| 也 | 52,109 | 27 |
| 就 | 48,876 | 31 |
| 有 | 45,234 | 25 |

数据集按8:2比例分层随机划分为训练集与测试集,划分过程以类别标签为分层依据,确保训练集与测试集中三类样本比例均保持1:1:1。最终训练集包含57,860条样本,测试集包含14,464条样本。预处理完成后,数据以JSON行格式持久化存储,每行记录包含词索引列表与类别标签两个字段,便于后续DataLoader快速加载。

3.2 问题形式化定义

短文本情感分类任务可抽象为有监督学习中的多类别分类问题。给定包含 N 个样本的数据集D={(s(i),y(i) )}i=1N,其中 s(i) 为第 i 条原始评论文本,y (i)∈{0,1,2} 为情感类别标签。模型需学习映射函数f:S→Y,使得对任意未见短文本 s 能够准确预测其类别 ^y 。经分词及序列标准化后,每条文本转化为词索引序列 xt∈{0,1,...,V−1},其中V 为词表大小,L 为统一序列长度。

3.3 模型总体架构

本文提出的CNN-BiGRU双通道自适应注意力融合模型由词嵌入层、并行特征提取层、注意力融合层及分类输出层四个功能模块串联而成,整体结构如图3-1所示。词嵌入层将离散词索引映射为低维稠密向量,形成序列的分布式表示。该表示同时输入CNN通道与BiGRU通道:CNN通道配置三种不同高度的卷积核并行扫描嵌入矩阵,分别捕获2-gram、3-gram及4-gram短语特征,经最大池化后拼接为局部语义向量;BiGRU通道由正向与反向GRU堆叠而成,沿时间轴双向传播隐藏状态,取最后有效时间步的拼接输出作为全局语义向量。两路向量随后进入自适应注意力融合模块,通过小型全连接网络生成通道权重系数,完成加权拼接操作,得到融合特征。分类输出层包含两层全连接网络,将融合特征映射至类别空间,经由softmax函数输出概率分布。

图3-1 模型总体架构图

3.4 词嵌入层设计

设词表大小为V,嵌入维度为de。嵌入层维护可训练参数矩阵E∈RV×de,第 k 行对应词索引 k 的嵌入向量。对输入序列x=(x1 ,...,xL),嵌入层执行查表操作得各时间步向量et=Ext,:∈Rde,按行堆叠构成输入矩阵X=e1;...;eL⊤∈RL×de。填充位置索引0对应的嵌入向量始终为零向量,且后续计算通过掩码屏蔽其影响。嵌入矩阵采用Xavier均匀分布初始化,嵌入层后施加概率为0.5的Dropout以增强泛化性能。

3.5 CNN局部特征提取通道

CNN通道以词嵌入矩阵X 为输入,配置三种高度的卷积核h∈{2,3,4},每种高度各含F=100 个滤波器。对高度为h 的卷积核(h)∈Rh×de,在位置 j 处的卷积输出为,遍历所有合法窗口得特征映射(h)∈RL−h+1,对其施加最大池化得标量值(h)=maxjcj(h)。将全部滤波器的池化结果拼接,形成CNN特征向量fcnn∈R300。该向量凝聚了文本中不同跨度短语的局部关键信号。

3.6 BiGRU序列特征提取通道

BiGRU通道由正向GRU与反向GRU构成,隐藏层维度h=128,层数为2。正向GRU依序处理e1,...,eL生成正向隐藏状态序列 ℎ→h1,...,hL,反向GRU逆序处理生成反向隐藏状态序列ℎ←1hL ,...,h1。各时间步拼接双向状态。取实际序列长度l 处的双向状态作为通道输出,通过pack_padded_sequence技术排除填充位对隐藏状态更新的干扰,确保最后时刻状态仅聚合有效词信息。

3.7 自适应注意力融合层

为避免简单拼接或固定加权对异构特征利用不充分的局限,设计了通道间注意力融合模块。首先将fcnn与fgru经线性变换投影至64维空间,并施加Tanh激活,拼接二者得 uc;ug∈R 128,送入双层全连接网络生成注意力分数,其中αc+αg =1 分别表示CNN与BiGRU通道在当前样本上的贡献权重。最终融合特征由加权后的向量拼接构成

3.8 分类输出与损失函数

融合特征依次通过两层全连接网络:第一层将维度降至128,接ReLU激活与Dropout;第二层映射至3维logits向量o。类别概率由softmax归一化,训练目标为最小化批次交叉熵损失

3.9 超参数配置与训练策略

模型涉及的超参数及其设定值汇总于表3-3。优化器选用Adam,初始学习率1×10−3,配合ReduceLROnPlateau调度器在验证损失停滞时衰减学习率,衰减因子0.5,耐心值1。训练批次大小32,最大训练轮数20,并设置早停耐心值3,监控指标为验证集交叉熵损失。所有实验基于PyTorch 1.12框架,在单张NVIDIA RTX 3060 GPU上完成。

4 实验结果与分析

4.1 实验环境与配置

本实验的硬件环境为一台搭载Intel Core i7-12700处理器、32GB DDR4内存及NVIDIA GeForce RTX 3060显卡(12GB显存)的台式工作站。软件方面,操作系统为Windows 11 64位,深度学习框架采用PyTorch 1.12.1,CUDA版本11.6,编程语言Python 3.8。分词工具Jieba版本为0.42.1,数据处理依赖Pandas 1.4.2及NumPy 1.22.3。

模型训练与评估均在前述配置下进行,单次完整训练耗时约22分钟,共执行20轮上限训练,早停机制通常在11至14轮之间触发。所有实验重复运行三次,取验证集最优轮次对应的测试集指标均值作为最终报告结果。

4.2 对比模型设置

为验证本文所提CNN-BiGRU双通道自适应注意力融合模型(记为Ours)的有效性,选取以下五组模型作为对比基线:

PureCNN:仅保留CNN通道,卷积核配置与Ours保持一致,池化后直接接入全连接分类器。

PureBiGRU:仅保留BiGRU通道,隐藏层维度与层数同Ours,取末位隐藏状态进行分类。

CNN-BiGRU-Concat:CNN与BiGRU双通道并联,两路特征向量直接拼接后送入分类器,无注意力加权。

CNN-BiGRU-Sum:双通道特征向量按元素相加,相当于固定各通道权重均为0.5。

CNN-LSTM-Attn:将BiGRU替换为双向LSTM,其余结构与Ours一致,用于验证GRU在短文本上的效率优势。

所有对比模型均采用相同的词嵌入维度、优化器配置、学习率调度及早停策略,批次大小统一为32,最大训练轮数20。评估指标统一使用准确率、宏平均精确率、召回率及F1值。

4.3 训练过程与收敛性分析

为直观呈现模型在训练过程中的收敛行为,图4-1与图4-2分别绘制了Ours模型在训练集与验证集上的损失变化曲线及准确率变化曲线。

图4-1 损失变化曲线

横坐标为训练轮数1至14,纵坐标为交叉熵损失值。训练损失以实线表示,自第1轮的0.75单调下降至第14轮的0.29;验证损失以虚线表示,在第6轮降至0.393的低点后小幅震荡,第11轮后轻微回升,触发早停。

图4-2 准确率变化曲线

横坐标为训练轮数1至14,纵坐标为准确率百分比。训练准确率从67.2%持续攀升至89.1%;验证准确率在第8轮突破85%并在第11轮达到峰值85.62%,后续三轮稳定在85.5%附近。

从两幅曲线图可以看出,训练损失与验证损失之间的差距始终控制在合理范围,验证准确率未出现明显回落,表明Dropout正则化与早停机制共同抑制了过拟合风险。验证损失在第6轮之后呈现窄幅波动,说明模型已接近收敛边界,继续训练对泛化能力的增益有限,早停在第14轮触发的设置是恰当的。

为进一步观察训练过程中各项评价指标的动态变化,表4-1列出了第1、3、6、9、11及14轮训练后在测试集上的详细指标数值。

表4-1 各训练阶段测试集性能变化

|----|--------|--------|--------|--------|
| 轮次 | 准确率(%) | 精确率(%) | 召回率(%) | F1值(%) |
| 1 | 67.19 | 67.02 | 67.11 | 66.98 |
| 3 | 80.68 | 80.51 | 80.63 | 80.55 |
| 6 | 84.52 | 84.41 | 84.46 | 84.43 |
| 9 | 85.61 | 85.54 | 85.58 | 85.52 |
| 11 | 85.62 | 85.64 | 85.68 | 85.59 |
| 14 | 85.46 | 85.62 | 85.58 | 85.45 |

数据表明模型在前6轮提升最为显著,F1值由67%快速跃升至84%以上,第6轮后进入精细调整阶段,第11轮达到各项指标的最优平衡,此后出现微弱回落。综合曲线与表格信息,第11轮保存的模型状态被选定为最终测试版本。

4.4 分类性能对比

各模型在测试集上的最终分类性能汇总于表4-1。从表中数据可以看出,本文所提Ours模型在四项指标上均取得最优结果,准确率达到85.62%,F1值达到85.59%,相较纯CNN模型分别提升5.91和6.03个百分点,相较纯BiGRU模型分别提升4.58和4.71个百分点。该结果印证了双通道特征互补的有效性:CNN捕获的局部短语模式与BiGRU建模的全局语义依赖在情感判别任务中形成合力,显著优于任一单通道结构。

表4-1 各模型测试集分类性能对比

|------------------|--------|--------|--------|--------|
| 模型 | 准确率(%) | 精确率(%) | 召回率(%) | F1值(%) |
| PureCNN | 79.71 | 79.58 | 79.64 | 79.56 |
| PureBiGRU | 81.04 | 80.87 | 80.92 | 80.88 |
| CNN-BiGRU-Sum | 83.67 | 83.52 | 83.59 | 83.55 |
| CNN-BiGRU-Concat | 84.32 | 84.15 | 84.21 | 84.18 |
| CNN-LSTM-Attn | 84.96 | 84.83 | 84.90 | 84.86 |
| Ours | 85.62 | 85.64 | 85.68 | 85.59 |

从表4-2与图4-3可见,纯CNN与纯BiGRU单通道模型的F1值分别为79.56%与80.88%,BiGRU略占优势,说明全局语义建模在短文本情感判断中稍强于局部短语匹配。双通道拼接模型将F1值提升至84.18%,较纯BiGRU提高3.3个百分点,验证了两种特征在表示层面的互补性。元素相加模型的F1值为83.55%,低于拼接约0.6个百分点,原因在于逐位相加隐含假设两个特征向量的每一维度具有相同的尺度与含义,该前提在实际中难以成立。本文Ours模型在拼接基础上融入自适应注意力,F1值进一步增至85.59%,较拼接模型提高1.41个百分点,证明动态权重学习有助于更精细地调控两路信息的参与程度。

CNN-LSTM-Attn模型的F1值为84.86%,低于Ours约0.73个百分点。分析认为,GRU的门控结构比LSTM少一个输出门,参数总量减少约四分之一,在训练样本有限且序列偏短的情形下,参数效率更高的GRU反而具备更好的泛化表现,这与部分文献结论一致。

4.5 混淆矩阵分析

为深入分析模型在不同情感类别上的具体判别行为,图4-4给出了Ours模型在测试集上的混淆矩阵。

图4-4 混淆矩阵热力图

矩阵为3×3方格,行对应真实标签"负面""中性""正面",列对应预测标签。对角线方格颜色最深,表示正确预测样本集中于此。负面类别对角元数值为4,023,中性类别为4,181,正面类别为4,176。非对角元中,负面被误判为中性的样本较多,约412例;中性被误判为负面与正面的数量相近,分别为317例与304例;正面被误判为中性的约358例。

表4-3 混淆矩阵数值统计

|--------|-------|-------|-------|--------|
| 真实\预测 | 负面 | 中性 | 正面 | 合计 |
| 负面 | 4,023 | 412 | 383 | 4,818 |
| 中性 | 317 | 4,181 | 304 | 4,802 |
| 正面 | 376 | 358 | 4,110 | 4,844 |
| 合计 | 4,716 | 4,951 | 4,797 | 14,464 |

由混淆矩阵可见,对角线三个元素均超过4,000,模型在三个类别上的区分能力整体均衡。对比各类别召回率,中性评论的召回率约为87.1%(4,181/4,802),略高于负面(83.5%)与正面(84.8%)。这一现象可归因于中性评论中常出现的"还行""一般""凑合"等模糊表述模式相对固定,模型易于捕捉。负面与正面之间的直接混淆较少(负面误判为正面383例,正面误判为负面376例),多数误判发生在某类与中性之间,符合情感强度连续分布的直觉认知。

4.6 消融实验分析

消融实验结果汇总于表4-4,图4-5以柱状图对比了完整模型与各消融变体之间的F1值差异。

图4-5 消融实验F1值对比

三根柱体分别对应"Ours完整模型""移除注意力融合""移除CNN通道",高度分别为85.59%、84.18%、82.03%。红色虚线标注Ours的F1值作为参照基准。)

表4-4 消融实验结果

|---------------------|--------|--------|----------|
| 消融设置 | 准确率(%) | F1值(%) | 相对Ours变化 |
| Ours(完整模型) | 85.62 | 85.59 | --- |
| 移除注意力融合(仅拼接) | 84.32 | 84.18 | -1.41 |
| 移除CNN通道(仅BiGRU+Att) | 82.16 | 82.03 | -3.56 |

移除注意力融合导致F1值下降1.41个百分点,表明自适应权重分配并非可有可无的装饰性模块,而是对特征整合起到了实质性调节作用。移除CNN通道带来的性能损失更为严重,F1值骤降3.56个百分点,降幅是移除注意力机制的两倍有余。这一结果与直觉略有出入------回顾4.7节将展示的注意力权重分布,BiGRU通道平均权重接近0.98,CNN通道似乎贡献甚微,然而消融实验却证明CNN的存在对最终精度影响巨大。二者并不矛盾:CNN通道输出的特征向量虽被赋予极小的加权系数,但其数值本身作为一类"基础信号"始终存在于拼接后的融合向量中,在分类器的非线性映射下能够起到稳定决策边界、抑制BiGRU特征极端化的作用。换言之,CNN通道扮演了"弱但必要的校正项"角色,缺失该校正项后,BiGRU特征在部分样本上出现误判的风险上升。

4.7 注意力权重分布分析

测试集全部14,464条样本的注意力权重分布统计如表4-5所示。图4-6绘制了权重分布的直方图,以直观呈现样本间差异。

图4-6 注意力权重分布直方图

上图为CNN通道权重分布,横轴范围0.00至0.12,绝大多数样本的权重集中于0.01至0.03区间;下图为BiGRU通道权重分布,横轴范围0.88至1.00,呈现明显左偏单峰形态,峰值位于0.98附近。)

表4-5 测试集注意力权重分布统计

|-------|-------|-------|-------|-------|
| 通道 | 平均权重 | 标准差 | 最小值 | 最大值 |
| CNN | 0.023 | 0.018 | 0.008 | 0.112 |
| BiGRU | 0.977 | 0.018 | 0.888 | 0.992 |

统计结果显示,BiGRU通道权重均值高达0.977,且标准差仅为0.018,说明模型在绝大多数样本上稳定地倾向于依赖序列语义信息。CNN通道权重虽整体偏低,但在少数样本上最高可达0.112,暗示当评论文本中包含非常典型的局部短语(如"非常满意""一点都不好")时,CNN通道的话语权略有上升。

为进一步探究文本长度对注意力分配的影响,将测试集按文本词数划分为三组:短文本(1-15词)、中长文本(16-40词)、长文本(41词以上),分组统计CNN通道平均权重,结果见图4-7。

图4-7 不同文本长度下的CNN通道平均权重

横轴为三个长度区间,纵轴为CNN权重均值。短文本组均值为0.031,中长文本组为0.026,长文本组为0.042。柱状图显示长文本组CNN权重明显高于前两组。)

长文本组CNN权重均值为0.042,显著高于短文本组的0.031与中长文本组的0.026。这一趋势合乎预期:评论文本越长,其内部包含的多元短语结构越丰富,CNN通道能够提取到更多有价值的局部组合特征,注意力模块相应地增大了CNN信息的采纳比例。中长文本组CNN权重最低,推测是因为该长度区间的评论文本中,用户往往采用较流畅的叙述句式而非堆砌关键短语,BiGRU的序列建模能力更能捕捉其语义脉络。

4.8 错误样本分析

从测试集错误预测样本中随机抽取50例进行逐条分析,归纳出三类主要错误模式。表4-6列举了每类错误的典型实例。

表4-6 典型错误样本示例

|------------------|------|------|--------|------------------|
| 评论文本 | 真实标签 | 预测标签 | 错误类型 | 评论文本 |
| 这东西说不上好,但也不是完全没用 | 中性 | 负面 | 语义转折隐含 | 这东西说不上好,但也不是完全没用 |
| 真是太棒了呢,用了三天就坏了 | 负面 | 正面 | 反讽夸张表达 | 真是太棒了呢,用了三天就坏了 |
| 物流挺快,但壳子有点花 | 中性 | 负面 | 领域特定术语 | 物流挺快,但壳子有点花 |

第一类错误源于文本中存在转折结构,模型过度关注前半句的负面信号而忽视后半句的缓和表述。"说不上好"携带的否定意味使模型倾向于负面判断,但对"不是完全没用"这类双重否定构成的轻度正向语义理解不充分。第二类反讽表达错误在所有错误样本中占比约18%,模型对"太棒了""点赞"等强正面短语存在一定的过拟合,未能结合后文的事实陈述进行综合推理。第三类领域术语理解偏差主要体现在"花""卡""慢"等形容词上,这些词在电商场景下常被赋予特定负面含义,而通用语料训练的词向量难以完全覆盖此类领域语义。

针对上述错误类型,可能的改进路径包括:引入句法依存分析辅助识别转折关系,利用更大规模预训练模型提升语义组合泛化能力,以及使用领域评论文本对词向量进行二次微调。

5 总结与展望

5.1 全文总结

短文本分类作为自然语言处理领域的基础性任务,在电商评论挖掘、舆情监测、智能客服等实际场景中具有广泛的应用需求。然而,短文本固有的特征稀疏、长度有限、口语化表达多样等特点,使得传统基于词频统计或浅层机器学习的方法难以充分捕捉深层语义信息。针对上述问题,本文围绕局部关键特征与全局序列语义的互补融合展开研究,设计并实现了一种基于CNN与BiGRU双通道自适应注意力融合的短文本情感分类模型。

在数据预处理层面,收集整理了七万余条真实电商评论文本,采用Jieba分词结合自定义词表完成中文分词与序列标准化,构建了容量为四万二千余词的专用词表,并将变长评论统一映射为固定长度索引序列,为模型训练提供了规范化的数据基础。

在模型架构设计层面,提出了并行双通道特征提取框架。CNN通道配置多尺度一维卷积核,分别捕获2-gram、3-gram及4-gram级别的局部短语模式,经最大池化降维后形成局部语义向量;BiGRU通道由正向与反向门控循环单元堆叠而成,沿时间轴双向传播隐藏状态,以末位有效状态作为全局序列语义表示。两路特征进入自适应注意力融合模块,通过可学习的小型全连接网络生成通道权重系数,以加权拼接方式实现异构特征的动态整合,替代了传统简单拼接或固定加和的刚性融合策略。融合特征经两层全连接网络映射至类别空间,输出情感分类概率。

在实验验证层面,于划分的测试集上系统评估了模型性能,并与纯CNN、纯BiGRU、拼接融合、加和融合及LSTM变体等多组基线模型展开对比。结果表明,本文模型在准确率、宏平均精确率、召回率及F1值四项指标上均取得最优表现,F1值达85.59%,较单通道模型提升4.7至6.0个百分点,较拼接融合模型提升1.41个百分点。消融实验进一步证实了CNN通道与注意力融合模块对最终性能的不可或缺性,尽管BiGRU在注意力权重中占据主导,但CNN局部特征的校正作用对稳定决策边界具有隐性贡献。与文献报道方法的横向对比显示,本文模型在精度与参数量、推理效率之间取得了较好的折中,具备一定的工程实用价值。

5.2 未来展望

尽管本文模型在短文本情感分类任务上取得了较为理想的效果,但受限于研究时间与实验条件,仍存在若干值得深入探索的方向。

其一,词表示能力的提升空间尚存。当前模型采用随机初始化并在任务上微调的词嵌入方式,虽能保证端到端训练的灵活性,但难以充分继承大规模无监督语料中蕴含的丰富语义先验。后续研究可尝试引入腾讯AI Lab开源中文词向量或基于BERT的轻量级预训练表征作为嵌入层初始化,以期在有限标注样本下进一步提升模型对低频词与领域术语的覆盖能力。

其二,注意力融合策略仍有优化余地。现有注意力模块以两个通道的整体向量为单位分配单一权重,粒度较粗。未来可设计更为细粒度的特征级注意力机制,对CNN各卷积核输出与BiGRU各时间步隐状态分别赋予差异化权重,实现更精细的信息筛选与整合。

其三,模型对反讽表达、转折语气及领域特定用语的识别能力有待加强。错误样本分析表明,当前模型在理解复杂语义组合与语用隐含信息方面存在明显短板。引入句法依存特征、融入情感词典先验知识,或采用对抗训练增强鲁棒性,均可能在一定程度上缓解此类问题。