论文阅读：ACL 2023 MPCHAT: Towards Multimodal Persona-Grounded Conversation

CV-杨帆2025-09-11 18:38

速览

ACL 2023 论文：多模态人物对话新突破

该论文发表于 ACL 2023，聚焦于多模态人物对话领域，提出了 MPCHAT 数据集和相关任务，为研究带来了新视角。论文指出，以往的人物对话研究多侧重于文本形式的人物描述，但要全面展现人物的多面性，图像模态不可或缺，它能更好地揭示说话者的个人特征和经历。

研究者们构建了首个多模态人物对话数据集 MPCHAT，其中的人物不仅包含文本描述，还加入了图像，共同构成情景记忆。基于此数据集，论文提出了三个多模态人物对话任务：下一句回应预测、人物预测和说话者识别。实验结果表明，融入多模态人物信息后，模型在这些任务上的表现均有显著提升，充分证明了多模态人物对于提升多模态对话理解能力的重要性。MPCHAT 数据集的出现，为该领域的研究提供了高质量的资源，推动了对话系统向更自然、更智能的方向发展。