首次成功尝试!使用多模态无监督聚类的语义发现

简介

本推文介绍了来自清华大学Hanlei Zhang , Hua Xu,等人共同提出的一种多模态话语语义发现的多模态无监督聚类方法。他们在这篇收录于ACL 2024的论文《Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances》中提出了UMC方法,通过构建多模态数据的增强视图,并结合创新的高质量样本选择机制和双重对比学习策略,该方法在聚类指标方面实现了2-6%的显著提升,超越了当前的主流无监督聚类方法。

论文链接: https://arxiv.org/abs/2405.12775

代码链接:https://github.com/thuiar/UMC

一、研究背景

语义发现是近年来在自然语言处理(NLP)领域中的一个新兴方向,其本质是一个聚类任务。因此,在过去的几年里,它见证了许多无监督或半监督方法的发展。

现实世界的大部分信息往往都是多模态信息。在无监督的多模态数据中发现对话话语的语义需要整合各种模态(即文本、视频和音频),以有效挖掘多模态语言中复杂的内在语义。语义发现的传统方法通常只关注文本模态和聚类算法,未能利用现实世界中丰富的多模态信息(例如肢体语言、面部表情和音调)。尽管近年来一些无监督聚类方法通过对比学习取得了先进的性能,但它们大多聚焦于单一模态,如文本或图像模态。

该团队所研究的无监督聚类方法(UMC)可以在无监督的情况下整合多种模态的信息,从而更加准确并有效地挖掘复杂的语义。

图1 纯文本聚类结果偏离了真正的多模态话语语义

二、研究方法

UMC方法包括三个核心步骤:多模态无监督预训练、聚类和高质量样本选择、多模态表征学习。

图2 无监督多模态聚类算法UMC概述

2.1多模态无监督预训练

对于一个多模态信息,文本模态使用BERT提取信息,视频和音频模态使用Swin Transformer和WavLM提取信息,再通过Transformer编码器提取深层含义之后将他们连接。考虑到文本模态在语义发现中的核心地位,研究团队将文本模态作为锚点,使用零向量屏蔽视频或音频模态进行数据增强。通过一个非线性融合层完成模态间的融合后,进行一个无监督对比学习完成预训练。无监督对比学习的主要思想是最大化正样本对的相似性,最小化负样本对的相似性。

2.2聚类和高质量样本选择

研究团队发现,局部密度越高的样本越可能位于聚类中心,其准确率和质量也越高。因此,团队以密度作为评估高质量样本的指标。将所有样本的密度从高到低排序后,取出其中前t%个样本用于计算聚类紧凑度。对于每个聚类,给出一组候选的K值。通过上述的计算可以得到每个K值所对应的聚类的紧凑度,从中选出使得聚类紧凑度最高的一个K作为聚类的Top-K值。对所有聚类都进行上述的计算后可以得到一组高质量样本和一组低质量样本。

图3 高质量样本选择机制的图例

2.3多模态表征学习

在得到高质量样本和低质量样本后,团队使用了双重对比学习的策略。对于高质量样本,他们的伪标签比较可靠,因此通过有监督对比学习来强化他们的表征。对于低质量样本,他们的伪标签并不可靠,所以使用无监督对比学习来优化他们的分布。之后循环迭代第二步与第三步,直到阈值t线性增长到100%。

三、实验结果

3.1 性能比较

论文实验使用的数据集如表1所示,#C和#U代表聚类和话语的数量。

表 1:MIntRec、MELD-DA、IEMOCAP-DA数据集的统计数据

论文团队将UMC方法与最近的一些无监督聚类方法进行的比较,包括SCCL、CC、USNID和MCN。得到的实验结果如表2所示,可以看出UMC方法在各数据集的各项聚类指标上都优于其他的算法。其中,单独使用文本模态的UMC方法(UMC-Text)在某些指标上面的表现是不如其他一些先进的方法的。上述实验的结果可视化如图4。

表2 MIntRec、MELD-DA和IEMOCAP-DA数据集的结果

图4:从上到下依次是MIntRec、MELD-DA和IEMOCAP-DA数据集上的结果可视化

3.2 消融实验

如表三所示,团队在三个数据集上进行了消融实验,分别移除了UMC方法的不同模块,包括:**(1)移除第一步多模态无监督预训练;(2)将第二步改为随机选择样本;(3)删除第三步的无监督对比学习;(4)进行第一步后直接使用其他聚类策略。**消融实验结果表明, UMC方法的三个步骤都是不可或缺的。

表3:三个数据集上的消融实验结果

四、总结

论文介绍了多模态语义发现任务,并提出了一种新的无监督多模态聚类(UMC)方法来应对这一关键挑战。UMC通过构建积极的多模态数据增强,有效地利用非语言模态进行语义发现。此外,该文还提出了一种新的高质量样本选择机制和两步法的表征学习策略。UMC 在标准聚类指标方面实现了2-6%的显著改进,为相关研究提供了坚实的基础。

相关推荐
寻丶幽风2 小时前
论文阅读笔记——双流网络
论文阅读·笔记·深度学习·视频理解·双流网络
CM莫问4 小时前
<论文>(微软)避免推荐域外物品:基于LLM的受限生成式推荐
人工智能·算法·大模型·推荐算法·受限生成
康谋自动驾驶5 小时前
康谋分享 | 自动驾驶仿真进入“标准时代”:aiSim全面对接ASAM OpenX
人工智能·科技·算法·机器学习·自动驾驶·汽车
深蓝学院6 小时前
密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
人工智能·机器学习·自动驾驶
归去_来兮6 小时前
人工神经网络(ANN)模型
人工智能·机器学习·人工神经网络
2201_754918416 小时前
深入理解卷积神经网络:从基础原理到实战应用
人工智能·神经网络·cnn
强盛小灵通专卖员6 小时前
DL00219-基于深度学习的水稻病害检测系统含源码
人工智能·深度学习·水稻病害
Luke Ewin6 小时前
CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
人工智能·语音识别·实时语音识别·商用级别实时语音识别
白熊1887 小时前
【计算机视觉】OpenCV实战项目:Face-Mask-Detection 项目深度解析:基于深度学习的口罩检测系统
深度学习·opencv·计算机视觉
Joern-Lee7 小时前
初探机器学习与深度学习
人工智能·深度学习·机器学习