【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

[【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用](#【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用)
- 目录
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - [1. 知识总结模块（Knowledge Summarization Module）](#1. 知识总结模块（Knowledge Summarization Module）)
    - [2. 下游多模态融合结构（Downstream Multi-modal Fusion Structure）](#2. 下游多模态融合结构（Downstream Multi-modal Fusion Structure）)
    - [3. 模态特定编码（Modality-Specific Encoding）](#3. 模态特定编码（Modality-Specific Encoding）)
    - [4. 模态融合（Modality Fusion）](#4. 模态融合（Modality Fusion）)
    - [5. 分类器（Classifier）](#5. 分类器（Classifier）)
  - 算法模型的关键特点
  - 实验效果
  - 推荐阅读指数
- 后记

探索思维链（Chain-of-Thought）在多模态隐喻检测中的应用

摘要

本文探讨了在广告和互联网迷因（meme）中常见的隐喻检测问题。由于互联网迷因的自由形式，导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读，并需要大量的常识知识，这对语言模型构成了挑战。为了应对这些挑战，作者提出了一个紧凑的框架C4MMD，该框架利用思维链（Chain-of-Thought, CoT）方法进行多模态隐喻检测。具体来说，该方法设计了一个三步过程，灵感来自CoT，从多模态大型语言模型（MLLMs）中提取并整合知识到较小的模型中。此外，作者还开发了一个模态融合架构，将大模型中的知识转化为隐喻特征，并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明，该方法不仅有效增强了小型模型的隐喻检测能力，而且超越了现有模型。据作者所知，这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。

"Metaphors" 在中文中通常被翻译为"隐喻"或"暗喻"。在文学和语言学中，隐喻是一种比喻，通过将一件事物说成另一件事物来暗示它们之间的相似性，而不是直接比较。例如，在句子"时间是金钱"中，"时间"被隐喻性地描述为"金钱"，强调了时间的宝贵和有限性。
"Memes" 在中文中通常被翻译为"迷因"或"模因"。这个词汇最初由生物学家理查德·道金斯（Richard Dawkins）在其1976年的著作《自私的基因》中提出，用于描述文化信息或行为模式的传播单位，类似于生物基因在生物进化中的角色。在互联网文化中，"迷因"通常指那些迅速在网络用户之间传播的图片、视频、文字等内容，它们往往带有幽默或讽刺的元素，能够引发共鸣并被广泛复制和分享。

研究背景

隐喻在日常生活中的表达和写作中非常普遍，对自然语言处理（NLP）中的下游任务，如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起，多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比，多模态隐喻检测不仅要在句子中发现隐喻，还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差，这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本，但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。

问题与挑战

多模态隐喻检测面临的主要问题和挑战包括：

多模态隐喻的复杂性和多样性：需要识别和分类图像和文本中的隐喻，以及它们之间的相互作用。
文本内容质量差：社交媒体上的广告和迷因中的文本内容质量参差不齐，导致隐喻检测困难。
位置信息丢失：使用OCR技术提取文本时，可能会丢失文本的位置信息，这对于理解隐喻至关重要。

如何解决

为了解决上述挑战，作者提出了以下解决方案：

利用MLLMs的丰富世界知识和上下文理解能力：通过LLMs生成补充信息，而不是对它们进行微调。
设计三步CoT方法：逐步获取MLLM的信息，描述图像、分析文本以及整合两种模态的信息。
模态融合架构：将大模型中的知识转化为隐喻特征，并辅以辅助任务以提高模型性能。

创新点

本文的创新点包括：

首次系统性地利用MLLMs进行隐喻检测任务：这是首次将MLLMs应用于隐喻检测，开辟了新的研究方向。
三步CoT方法：通过设计三步CoT方法，逐步提取和整合多模态信息，提高了模型对隐喻的理解能力。
模态融合架构：开发了一种新的模态融合架构，将大模型的知识转化为隐喻特征，提高了检测的准确性。

算法模型

C4MMD框架由以下主要组件构成：

知识总结模块：通过三步CoT提示，从MLLM中提取额外的文本信息。
下游多模态融合结构：将补充信息与原始文本合并，通过特定编码器处理这些输入，以获得特征向量。
模态特定编码：使用图像编码器和文本编码器获得图像和文本的向量化编码。
模态融合：将不同模态的向量尺寸调整一致，然后进行融合，以获得最终的融合向量表示。
分类器 ：使用跨模态向量进行隐喻分类，并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。

C4MMD框架的核心在于利用多模态大型语言模型（MLLMs）来增强小型模型的隐喻检测能力，C4MMD框架中关键组件包括：

1. 知识总结模块（Knowledge Summarization Module）

该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤：

第一步（STEP1）：忽略图像中的文本，仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
第二步（STEP2）：分析文本的含义，注意同音异义词和双关语，并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
第三步（STEP3）：结合前两步的结果，整合图像和文本特征，以获得更深层次的跨模态交互信息。

在获取MLLM生成的额外模态信息后，设计的下游结构旨在促进模态间的整合，并有效利用这些额外信息来增强隐喻检测能力。

3. 模态特定编码（Modality-Specific Encoding）

图像编码器（Image Encoder）：使用ViT-Encoder对输入图像进行编码，得到图像的特征向量。
文本编码器（Text Encoder）：使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本，采用了类似于BERT的段编码方法，为每个模态的文本添加额外的可学习参数向量。

4. 模态融合（Modality Fusion）

在融合之前，需要确保两个编码器的向量尺寸一致。对于文本模态，计算所有词向量的平均值作为整个句子的向量表示。对于视觉模态，使用CLS标记的向量作为整个图像的表示。然后，使用线性层和GeLU激活函数将视觉模态的向量映射到与文本模态相同的特征空间。

最终，将两个模态的向量进行拼接，形成最终的融合向量表示，用于后续的分类任务。

5. 分类器（Classifier）

隐喻分类：使用一个线性层和softmax分类器对融合后的跨模态向量进行隐喻分类。
图像主导和文本主导分类：使用两个单独的分类器来识别图像主导和文本主导的隐喻特征，以减少最终分类器的分类复杂性。

算法模型的关键特点

跨模态交互：通过三步CoT方法，模型能够理解图像和文本之间的深层次交互，这对于隐喻检测至关重要。
模态融合：通过特定的编码器和融合策略，模型能够有效地整合来自不同模态的信息，提高隐喻检测的准确性。
辅助任务：通过设计辅助任务，模型能够在检测图像和文本中的隐喻特征之前，先进行细粒度的分类，这有助于提高最终分类器的性能。

C4MMD框架通过这些精心设计的组件和策略，实现了对多模态隐喻的有效检测，展现了在处理复杂语言和视觉挑战方面的潜力。

实验效果

在MET-MEME数据集上的实验结果表明，C4MMD方法在多模态隐喻检测任务上取得了优异的性能。以下是一些重要的数据和结论：

主要分类结果：C4MMD在多模态隐喻检测任务上取得了87.70%的准确率，83.33%的精确率，81.58%的召回率，以及82.44%的F1分数。
消融研究：消融研究表明，模型的融合结构和CoT生成方法对于提高性能至关重要。
不同语言和视觉模型组合的影响：ViT和XLM-R的组合在模态融合中表现最佳。
模型大小的影响 ：随着模型大小的增加，特别是当模型最初较小时，性能提升越来越明显。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞、收藏、关注和评论 )，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用