Sarcasm detection论文解析 |利用分层融合模型在 twitter 中进行多模态讽刺检测

论文地址

论文地址：https://aclanthology.org/P19-1239/#/

github地址：headacheboy/data-of-multimodal-sarcasm-detection (github.com)

论文首页

利用分层融合模型在 twitter 中进行多模态讽刺检测

📅出版年份:2019
📖出版期刊:
📈影响因子:
🧑文章作者:Cai Yitao,Cai Huiyu,Wan Xiaojun

🔎摘要:

讽刺是一种微妙的语言形式，人们用它来表达与暗示相反的意思。以前的讽刺检测工作主要集中在文本上。然而，越来越多的社交媒体平台（如 Twitter）允许用户创建多模式信息，包括文本、图片和视频。仅基于文本来检测多模式信息中的讽刺是不够的。在本文中，我们将重点关注 Twitter 中由文本和图像组成的推文的多模态讽刺检测。我们将文本特征、图像特征和图像属性视为三种模态，并提出了一种多模态分层融合模型来完成这项任务。我们的模型首先提取图像特征和属性特征，然后利用属性特征和双向 LSTM 网络提取文本特征。然后重建三种模式的特征，并将其融合为一个特征向量用于预测。我们创建了一个基于 Twitter 的多模态讽刺检测数据集。数据集上的评估结果证明了我们提出的模型的有效性和三种模式的实用性。

🌐研究目的:

具有挑战性的多模态讽刺检测任务

📰研究背景:

讽刺在当今的社交媒体平台上盛行，其自动检测在客户服务、意见挖掘、网络骚扰检测以及各种需要了解人们真实情绪的任务中具有重要意义。

Twitter 因其丰富的公开讽刺帖子资源而成为讽刺检测研究的焦点。p2506

🔩模型架构:

我们将文本、图像和图像属性视为三种模式。图像属性模态已被证明可以通过添加图像内容的高级概念来提高模型性能。p0508

图像模态：

使用预训练和微调的 ResNet 模型来获取推文图像的 14 × 14 区域向量。
砍掉了预训练模型的最后一个全连接（FC）层，并用新的层替换它。
图像引导向量是原始图像向量进行平均。

图像属性模态：

我们将属性视为桥接推文文本和图像的额外模态，直接使用每个推文图像的五个预测属性的词嵌入作为原始属性向量。
使用另一个预训练和微调的 ResNet 模型来预测每个图像的 5 个属性，其 GloVe 嵌入被视为原始属性向量。
属性引导向量是原始属性向量的加权平均值。

文本属性模态：

使用 Bi-LSTM 来获取文本向量。原始文本向量是 Bi-LSTM 每个时间步的串联前向和后向隐藏状态。

文本引导向量是上述原始向量的平均值。

早期融合

附加图像可以帮助模型理解推文文本，因此我们对属性引导向量应用非线性变换ReLU，并将结果输入 Bi-LSTM 作为其初始隐藏状态。

表示融合

使用原始向量和引导向量来重建三种模态的特征向量。

模态融合

将三种模态的细化向量通过加权平均合并为一个向量，而不是简单的级联。

分类层-两层全连接

最后，将融合向量输入两层全连接神经网络以获得分类结果。
隐藏层和输出层的激活函数分别是element-wise ReLu和sigmoid函数。
损失函数是交叉熵。

🧪实验:

📇 数据集:

我们收集包含图片和一些特殊标签（例如#sarcasm等）的英语推文作为正面例子（即讽刺），并收集带有图像但没有此类标签的英语推文作为反面例子（即非讽刺）。

训练集：验证集：测试集=8：1：1

数据清洗：

丢弃包含讽刺、挖苦、反讽、反讽等常规词语的推文。
丢弃包含 URL 的推文，以避免引入额外信息。
丢弃那些经常与讽刺推文同时出现的词语的推文。

数据预处理：

用某个符号 <user> 替换提及。
使用 NLTK 工具包分离单词、表情符号和主题标签。
将主题标签符号 # 与主题标签分开，并将大写字母替换为小写字母。
最后，在训练集中只出现一次的单词和未出现在训练集中但出现在开发集或测试中的单词用某个符号〈unk〉替换。

📏评估指标:

📉 优化器&超参数:

Adam 优化器

复制代码

LSTM 隐藏大小                      256

复制代码

 批量大小                           32

复制代码

 学习率                            0.001

复制代码

 梯度裁剪                            5

复制代码

早期停止耐心                          5

复制代码

词和属性嵌入大小                     200

复制代码

ResNet FC 大小                     1024

复制代码

 模态融合大小                       512

复制代码

 LSTM 丢失率                        0.2

复制代码

 分类层 l2 参数                     1e-7

p2511 Table2

📊 消融实验:

早期融合的去除降低了性能，这表明早期融合可以改善文本表示。
早期与属性表示的融合比与图像表示的融合表现更好，表明文本表示和图像表示之间的差距。
如果去除表示融合，性能也会下降，这表明表示融合是必要的，并且表示融合可以细化每种模态的特征表示。

📋 实验结果:

仅基于图像或属性模态的模型表现不佳，而文本（Bi-LSTM）和文本（CNN）模型表现更好，这表明文本模态的重要作用。

Concat(3)模型优于Concat(2)，因为添加属性作为新模态实际上引入了图像的外部语义信息，并在模型无法提取有效图像特征时帮助模型。

🚩研究结论:

我们提出了一种新的分层融合模型，以充分利用三种模态（图像、文本和图像属性）来解决具有挑战性的多模态讽刺检测任务。评估结果证明了我们提出的模型的有效性以及三种模式的有用性。

📝总结

💡创新点:

提出了一种多模态分层融合模型来检测 Twitter 中的讽刺。利用三种类型的特征，即文本、图像和图像属性特征，并以一种新颖的方式融合它们
属性特征用于初始化双向 LSTM 网络（Bi-LSTM），然后用于提取文本特征。
模态融合层对向量执行加权平均，并将它们泵送到分类层以产生最终结果。

⚠局限性:

使用图像引导向量进行早期融合，其中LSTM初始状态是通过与上述类似的方式获得的，但它的表现不是很好。

💬讨论:

据我们所知，我们是第一个深度融合图像、属性和文本三种模式的人，而不是简单的串联，用于 Twitter 讽刺检测。