
Auto-Encoding Morph-Tokens for Multimodal LLM
➡️ 论文标题:Auto-Encoding Morph-Tokens for Multimodal LLM
➡️ 论文作者:Kaihang Pan, Siliang Tang, Juncheng Li, Zhaoyu Fan, Wei Chow, Shuicheng Yan, Tat-Seng Chua, Yueting Zhuang, Hanwang Zhang
➡️ 研究机构: 浙江大学、新加坡国立大学、Skywork AI、南洋理工大学
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉理解(文本输出)和生成(视觉输出)之间存在显著的差距。对于理解任务,如"告诉我这张图片为什么好笑",可以使用GPT-4V;而对于生成任务,如"将这张图片转换成吉卜力风格",则需要使用DALL·E。因此,社区对统一的、基于令牌的、自回归的MLLM框架表现出浓厚兴趣。
➡️ 研究动机:现有的多模态大模型在视觉理解和生成之间存在冲突,主要原因是模型在理解任务中需要抽象视觉特征,而在生成任务中需要尽可能保留视觉细节。这种冲突导致了模型在两项任务中的表现不佳。为了解决这一问题,研究团队提出了一种新的方法,通过将图像编码为形态令牌(Morph-Tokens),来实现视觉理解和生成的协同。
➡️ 方法简介:研究团队提出了一种新的形态令牌(Morph-Tokens)方法,该方法在理解任务中作为视觉提示,指导MLLM生成文本;在生成任务中作为完整的视觉令牌,用于图像重建。通过解耦文本和图像重建损失,形态令牌能够有效解决理解与生成之间的冲突。研究团队还设计了三阶段训练策略,包括初始化、自编码形态令牌和指令调优,以实现模型的全面优化。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括图像描述、图像问答、视频问答等任务。实验结果表明,形态令牌方法在多模态理解和生成任务中均取得了新的最佳性能(SOTA),特别是在多轮图像编辑和上下文学习任务中表现出色。
Language-Image Models with 3D Understanding
➡️ 论文标题:Language-Image Models with 3D Understanding
➡️ 论文作者:Jang Hyun Cho, Boris Ivanovic, Yulong Cao, Edward Schmerling, Yue Wang, Xinshuo Weng, Boyi Li, Yurong You, Philipp Krähenbühl, Yan Wang, Marco Pavone
➡️ 研究机构: UT Austin、NVIDIA Research
➡️ 问题背景:多模态大型语言模型(MLLMs)在2D视觉和语言任务中展现了卓越的能力。然而,这些模型在3D空间中的感知和推理能力尚未得到充分探索。研究团队旨在通过大规模数据集和模型训练,扩展MLLMs在3D空间中的感知和推理能力。
➡️ 研究动机:现有的MLLMs主要集中在2D视觉和语言任务上,而3D空间的感知和推理能力尚未得到充分开发。为了提升模型在3D场景中的理解和推理能力,研究团队开发了一个大规模的2D和3D预训练数据集LV3D,并提出了一个新的MLLM模型Cube-LLM,通过纯数据扩展来实现强大的3D感知能力。
➡️ 方法简介:研究团队首先构建了一个大规模的2D和3D预训练数据集LV3D,通过结合多个现有的2D和3D识别数据集,并将其统一为一个多轮问答任务。然后,团队提出了Cube-LLM模型,并在LV3D上进行了预训练。Cube-LLM通过数据扩展,无需特定的3D架构设计或训练目标,即可实现强大的3D感知能力。
➡️ 实验设计:研究团队在多个室内和室外数据集上进行了实验,包括Talk2Car和DriveLM。实验评估了Cube-LLM在3D定位和复杂推理任务中的性能。结果显示,Cube-LLM在Talk2Car数据集上的3D定位任务中显著优于基线模型,APBEV提高了21.3点,3D AP提高了18.7点。在DriveLM数据集上,Cube-LLM的性能也显著提升,APBEV提高了32.8点,3D AP提高了17.7点。此外,Cube-LLM在2D基准测试中也表现出色,如refCOCO和VQAv2等。
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing
➡️ 论文标题:SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing
➡️ 论文作者:Yuying Ge, Sijie Zhao, Chen Li, Yixiao Ge, Ying Shan
➡️ 研究机构: Tencent AI Lab、ARC Lab, Tencent PCG
➡️ 问题背景:指令引导的图像编辑(Instruction-guided Image Editing)是一个新兴领域,它允许用户使用自然语言指令来操作图像,而无需复杂的描述或特定区域的掩码。这一进步显著增强了图像操作的可控性和灵活性。然而,与文本到图像的生成相比,指令引导的图像编辑更具挑战性,因为它需要对语言和视觉内容有全面的理解,并且能够处理迭代指令,同时保持视觉真实性和语义一致性。训练此类模型的一个重大障碍是缺乏高质量的大规模数据集,这对于学习模型以实现准确的指令解释和执行至关重要。
➡️ 研究动机:为了解决指令引导图像编辑领域的数据集不足问题,研究团队介绍了SEED-Data-Edit,这是一个独特的混合数据集,旨在促进使用开放形式语言的图像操作。SEED-Data-Edit由三类不同的数据组成:(1)通过自动化管道生成的高质量编辑数据,确保了大量多样化的图像编辑对;(2)从互联网收集的真实场景数据,捕捉用户意图的复杂性,促进图像编辑在现实世界中的实际应用;(3)由人类标注的多轮编辑数据,涉及多个编辑回合,模拟迭代编辑过程。这些多样化的数据来源使SEED-Data-Edit成为训练语言引导图像编辑模型的全面和多用途资源。
➡️ 方法简介:研究团队采用了两种自动化管道来生成大量的高质量图像编辑对,包括"移除"和"添加"编辑样本,以及风格、对象、颜色、材质或表情的变化。此外,他们从多个网站爬取了图像编辑对,这些网站上的业余摄影师会发布带有编辑请求的图像,这些请求由Photoshop专家处理。最后,他们还让Photoshop专家对真实图像进行多轮编辑,并记录每轮的编辑指令。
➡️ 实验设计:为了展示SEED-Data-Edit的有效性,研究团队使用该数据集对预训练的多模态大型语言模型(MLLM)SEED-X进行了微调,生成了指令调优模型SEED-X-Edit。SEED-X-Edit模型在语言引导的图像编辑中取得了有希望的结果,展示了该数据集在推进该领域方面的潜力。实验结果表明,SEED-X-Edit能够更准确地遵循编辑指令,例如在图像中添加太阳镜或移除瓶子,而基线模型则无法正确执行这些指令。
Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
➡️ 论文标题:Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
➡️ 论文作者:Wentao Tan, Changxing Ding, Jiayu Jiang, Fei Wang, Yibing Zhan, Dapeng Tao
➡️ 研究机构: South China University of Technology、Pazhou Lab, Guangzhou、JD Explore Academy, Beijing、Yunnan University、Yunnan United Vision Technology Co., Ltd., Kunming
➡️ 问题背景:文本到图像行人重识别(Text-to-Image Person ReID)任务旨在根据文本描述检索行人图像。然而,手动标注文本描述耗时且成本高,限制了现有数据集的规模和模型的泛化能力。因此,研究团队探索了利用多模态大语言模型(MLLMs)自动生成文本描述,以解决这一问题。
➡️ 研究动机:现有的研究主要集中在提高模型在特定数据集上的性能,但跨数据集的泛化能力较差。为了克服这一限制,研究团队提出了一个可迁移的文本到图像行人重识别问题,旨在训练一个模型,使其可以直接部署到不同的目标数据集上,而无需针对每个目标数据集进行微调。
➡️ 方法简介:研究团队提出了一种系统的方法,通过利用MLLMs生成大规模的图像-文本对,来训练一个可迁移的模型。为了提高模型的泛化能力,研究团队解决了两个关键挑战:1)引导MLLMs生成多样化的文本描述;2)减少合成文本描述中的噪声影响。为此,研究团队提出了基于模板的多样性增强(TDE)方法和噪声感知掩码(NAM)方法。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括CUHK-PEDES、ICFG-PEDES和RSTPReid。实验设计了不同的评估设置,包括直接迁移设置和传统评估设置,以全面评估模型的性能。实验结果表明,所提出的方法在直接迁移设置和传统评估设置下均表现出色,显著提高了模型的泛化能力和性能。
From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences
➡️ 论文标题:From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences
➡️ 论文作者:Prashant Kodali, Anmol Goel, Likhith Asapu, Vamshi Krishna Bonagiri, Anirudh Govil, Monojit Choudhury, Manish Shrivastava, Ponnurangam Kumaraguru
➡️ 研究机构: IIIT Hyderabad, MBZUAI
➡️ 问题背景:当前的自然语言处理(NLP)方法在分析或生成混合编码句子时,未能显式地建模"自然性"或"可接受性"。混合编码文本的生成和分析对于多语言用户来说至关重要,但现有的方法主要依赖于训练语料库来反映可接受的混合编码句子的分布。为了改进这一点,研究团队构建了一个包含人类对英语-印地语(en-hi)混合编码文本可接受性判断的数据集Cline,旨在区分自然的混合编码文本,并实现质量控制的混合编码文本生成。
➡️ 研究动机:现有的混合编码度量指标(如代码混合指数、切换点数量、突发性)与人类的可接受性判断相关性较低,这表明这些指标在评估混合编码句子的可接受性方面存在局限性。为了填补这一研究空白,研究团队收集了人类对混合编码句子可接受性的判断,分析了这些判断与现有混合编码度量指标之间的关系,并探索了预测混合编码句子可接受性的可能性。
➡️ 方法简介:研究团队创建了一个名为Cline的新数据集,包含从在线社交网络和合成混合编码生成工具中收集的英语-印地语混合编码句子的可接受性注释。Cline数据集由16,642个句子组成,涵盖了从完全可接受到完全不可接受的各种混合编码模式。研究团队还分析了Cline数据集,发现传统的混合编码度量指标与人类的可接受性判断相关性较低,进一步强调了Cline数据集的重要性。
➡️ 实验设计:研究团队使用Cline数据集进行了多项实验,包括使用多层感知机(MLP)模型和微调的多语言大型语言模型(MLLMs)预测混合编码句子的可接受性。实验结果表明,微调的MLLMs(如XLM-Roberta和Bernice)在不同配置下均优于基于混合编码度量指标训练的预测器和人类基线。此外,研究团队还测试了模型在零样本和少样本设置下从英语-印地语到英语-泰卢固语(en-te)的可接受性判断的迁移能力,结果表明微调模型在未见过的目标语言上也表现出色。