哈工大提出创新迭代推理框架 DPE-MNER ：充分发挥多模态表示潜力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该文章的作者团队来自于哈工大社会计算与信息检索研究中心，作者团队构成：郑子豪、张梓涵、王泽鑫、付瑞吉、刘铭、王仲远、秦兵。

多模态表示

多模态命名实体识别，作为构建多模态知识图谱的一项基础而关键任务，要求研究者整合多种模态信息以精准地从文本中提取命名实体。尽管以往的研究已经在不同层次上探索了多模态表示的整合方法，但在将这些多模态表示融合以提供丰富上下文信息、进而提升多模态命名实体识别的性能方面，它们仍显不足。

本文，研究团队提出了DPE-MNER ，一个创新的迭代推理框架，它遵循"分解、优先、消除"的策略，动态地整合了多样化的多模态表示。该框架巧妙地将多模态表示的融合分解为层次化且相互连接的融合层，极大地简化了处理过程。在整合多模态信息时，该团队特别强调了从"简单到复杂"和"宏观到微观"的渐进式过渡。此外，通过显式地建模跨模态的相关性，研究团队有效地排除了那些可能对MNER预测造成误导的不相关信息。通过在两个公共数据集上进行的广泛实验，研究团队的方法已被证实在提升多模态命名实体识别的准确性和效率方面具有显著效果。本文为LREC-COLING 2024 1558篇录用论文中的十篇最佳论文候选之一。

动机

多模态命名实体识别的一个实例。研究团队展示了对于命名实体识别决策可能有用的多种多模态表示。人类通常在心中以迭代的方式处理这些信息。

为解决这一问题，研究团队从复杂问题解决（Sternberg 和 Frensch，1992）这一领域中获得灵感。该领域专注于研究人类和计算机在解决包含多个变量、不确定性和高复杂性的问题时所采用的方法和策略。首先他们认为，当面对复杂问题时，人类一般会采用迭代的处理方式，如图所示，研究团队在处理MNER时其实也是个迭代的过程。其次，人类会运用特定策略来简化这些问题，比如分解、优先排序和排除不相关因素。

该研究团队认为，将多模态命名实体识别（MNER）视为一个整合多模态信息的迭代过程，并运用这些策略，非常适合于MNER任务。与单一步骤的方法相比，多步骤的方法能够在迭代优化命名实体识别（NER）结果的过程中，更全面地利用多样化的多模态表示。

此外，这三种策略非常适合于多模态NER中多种表示的整合：

分解策略鼓励我们将多模态表示的融合拆分为更小、更易于处理的单元，这些单元能够在不同的粒度级别上探索多模态交互。
优先排序策略建议根据"由易到难"和"由粗到细"的顺序来整合多模态信息；这种渐进式的整合有助于MNER预测的逐步优化。这使得模型能够逐步将注意力从简单但粗糙的信息转移到复杂但精确的细节上。
不相关性消除策略启发我们显式地筛选并排除不同多模态表示中的无关信息；这可以消除那些可能影响MNER性能的无关信息。

方法

研究团队设计了一个迭代的动态融合多种多模态特征的多模态实体抽取框架，其包含一个迭代过程以及预测网络。

迭代建模MNER

研究团队沿用扩散模型将物体识别，视觉对齐以及文本实体抽取建模为迭代的去噪过程的方式，同样使用了扩散模型将多模态实体抽取建模为迭代过程。模型首先随机初始化一系列的实体区间，基于一个预测网络编码多模态特征来在去噪过程中迭代地去噪得到文本中的正确实体区间。

预测网络

如图所示，研究团队共获取了文本中的三种粒度的表示，图片中的两种粒度两种难度(他们认为对齐的表示是简单的表示，不对齐的是困难的表示)的表示。该团队的预测网络AMRN包含一个编码网络(DMMF)以及解码网络(MER)。预测网络的设计是基于前面所提到的三种策略。

如图所示，编码网络是一个层次化的融合网络，将多种多模态特征融合分解为了一个层次化的过程。自底向上是首先将相同粒度不同难度的图片特征融合到每个粒度的文本特征中 <math xmlns="http://www.w3.org/1998/Math/MathML"> x _ i x\i </math>x_i, 将不同粒度的图片特征 <math xmlns="http://www.w3.org/1998/Math/MathML"> Y Y </math>Y融合到每个粒度的文本特征，最后将不同粒度的图片特征Y 和文本特征 X_融合，得到最终的多模态表示。输入到解码网络中进行解码，解码网络得到新的区间，以及每个区间的实体类型。

底层融合。这一层研究团队将某一个粒度的图片特征融合到某一个粒度的文本特征中。根据扩散过程，研究团队可以得到一个调度器，该调度器可以反映当前的迭代的状态，也是引入优先级 的关键。研究团队基于该调度器将不同难度的图片特征融合在一起得到与相关性_rel _，用于消除其中的无关信息。最后结合该相关性使用了一个bottleneck transformer来进行与的融合，得到了某一粒度的多模态图像文本融合表示。

中层融合。这一层研究团队将不同粒度的图片特征融合到某一个粒度的文本特征中，即融合。这一层我们使用了调度器来对不同粒度的图片特征进行动态融合，得到了某一粒度的多模态文本表示。

顶层融合。这一层研究团队将不同粒度的多模态文本表示融合到区间的表示中，得到总的多模态的文本表示，输入到解码网络中进行预测。

实验结果

主实验

作者团队对比了MNER的一些典型的方法。实验结果表明该方法在两个常用的数据集上取得了最佳的性能。

消融实验

研究者分别去除了我们论文中关于优先级、层次化、以及消除的设计，来观察模型性能，结果表明移除各个设计均带来了性能的下降。

与静态特征融合方法的对比

他们对比了一些典型的静态多模态融合方法，例如最大池化，平均池化，基于MLP以及MoE的方法，结果表明他们所提出的动态融合框架能达到最好的性能。

典型样例分析

研究团队选取了两个有代表性的样例来表明迭代过程。可以看到最开始的迭代步骤里，time square和cubs的类型被错误地预测了；然而根据图片中的重要特征线索，迭代地修正为了正确的实体类型。

结论

本文旨在多模态命名实体识别（MNER）领域内，充分地发挥各种多模态表示的潜力，以期获得卓越的识别效果。为此，作者们设计并提出了一种创新的迭代推理框架------DPE-MNER。DPE-MNER通过将MNER任务分解为多个阶段，巧妙地简化了对这些丰富多样的多模态表示的整合过程。在这一迭代过程中，多模态表示依据"分解、优先排序和消除"的策略，实现了动态的融合与整合。通过一系列严谨的实验验证，研究团队充分展示了DPE-MNER框架的显著效果和优越性能。

参考文献：

[1] Knowledge Graphs Meet Multi-Modal Learning: Comprehensive Survey, arxiv

[2] Decompose, Prioritize, and Eliminate: Dynamically Integrating Diverse Representations for Multi-modal Named Entity Recognition,2024,Joint International Conference on Computational Linguistics, Language Resources and Evaluation

[3] Complex problem solving : Principles and mechanisms,1992, American Journal of Psycholog

[4] DiffusionNER: Boundary Diffusion for Named Entity Recognition, ACL23

[5] DiffusionDet: Diffusion Model for Object Detection, ICCV23

[6] Language-Guided Diffusion Model for Visual Grounding, arxiv23