APPLE MM1:探索多模态大型语言模型的预训练方法与性能提升

在最新的研究中,苹果公司的研究团队深入探讨了构建高性能多模态大型语言模型(LLM)的方法和见解。通过细致的消融实验,他们确定了在模型架构决策和预训练数据选择方面的关键设计原则。研究结果表明,图像分辨率、图像编码器的预训练目标,以及不同类型的预训练数据的混合比例对模型性能有着显著影响。基于这些发现,研究者们构建了MM1,这是一个具有最多30B参数的多模态模型家族,包括密集模型和混合专家(MoE)变体,这些模型在预训练指标中表现出色,并在一系列多模态基准测试中展现了竞争力。

随着大规模图像文本数据和计算资源的可用性,多模态LLM已经成为语言和图像理解领域的新标准。

这些模型结合了大规模预训练的自回归最小二乘法模型,能够处理文本和视觉标记,后者通过图像编码器获得。研究者们通过消融实验,分析了图像编码器预训练、视觉-语言连接器设计,以及预训练数据混合对模型性能的影响。

模型架构与数据选择的关键发现:

  • 图像分辨率和图像编码器预训练目标对模型性能有显著影响,而视觉-语言连接器的设计相对次要。
  • 预训练数据的混合比例对少样本和纯文本性能至关重要,其中标题数据对零样本性能的提升最为有效。

MM1模型家族的构建与性能:

研究者们基于上述发现构建了MM1模型家族,通过扩大模型规模(从3B到30B参数)和探索混合专家模型,MM1在多个基准测试中取得了最先进的结果。特别是在少样本设置下,MM1在字幕和视觉问答(VQA)任务上超越了现有模型。

监督微调和性能分析:

在预训练之后,研究者们对MM1模型进行了监督微调(SFT),进一步提升了模型在各种任务上的性能。他们发现,图像分辨率的提高和预训练数据量的增加对SFT性能有积极影响。此外,MM1在处理多图像和思维链推理任务时表现出色,这得益于其大规模的多模态预训练。

结论:

MM1项目的研究成果为构建高性能多模态LLM提供了宝贵的经验教训。通过精心设计的预训练策略和模型架构选择,MM1模型家族在多个基准测试中展现了卓越的性能。这些见解不仅有助于推动多模态LLM的发展,也为未来研究提供了重要的参考。

参考文献:

1\] Achiam, J., et al.: Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023) \[2\] Agrawal, H., et al.: Nocaps: Novel object captioning at scale. In: Proceedings of the IEEE/CVF international conference on computer vision. pp. 8948--8957 (2019) \[3\] Alayrac, J.B., et al.: Flamingo: a visual language model for few-shot learning (2022) \[4\] Awadalla, A., et al.: Openflamingo: An open-source framework for training large autoregressive vision-language models. arXiv preprint arXiv:2308.01390 (2023) \[5\] Brown, T., et al.: Language models are few-shot learners. Advances in neural information processing systems 33, 1877--1901 (2020) \[6\] Chen, X., et al.: Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325 (2015) \[7\] Devlin, J., et al.: Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018) \[8\] Dosovitskiy, A., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020) \[9\] Gao, L., et al.: Sphinx-x: Scaling data and parameters for a family of multi-modal large language models. arXiv preprint arXiv:2402.05935 (2024) \[10\] He, K., et al.: Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 770--778 (2016)

相关推荐
weixin79893765432...18 分钟前
React + Fastify + DeepSeek 实现一个简单的对话式 AI 应用
人工智能·react.js·fastify
大千AI助手32 分钟前
概率单位回归(Probit Regression)详解
人工智能·机器学习·数据挖掘·回归·大千ai助手·概率单位回归·probit回归
狂炫冰美式1 小时前
3天,1人,从0到付费产品:AI时代个人开发者的生存指南
前端·人工智能·后端
LCG元2 小时前
垂直Agent才是未来:详解让大模型"专业对口"的三大核心技术
人工智能
我不是QI2 小时前
周志华《机器学习—西瓜书》二
人工智能·安全·机器学习
操练起来2 小时前
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
人工智能·pytorch·acl·昇腾·cann
智泊AI2 小时前
API是什么?为什么需要API?如何调用API(Python示例)
llm
KG_LLM图谱增强大模型2 小时前
[500页电子书]构建自主AI Agent系统的蓝图:谷歌重磅发布智能体设计模式指南
人工智能·大模型·知识图谱·智能体·知识图谱增强大模型·agenticai
声网2 小时前
活动推荐丨「实时互动 × 对话式 AI」主题有奖征文
大数据·人工智能·实时互动
caiyueloveclamp2 小时前
【功能介绍03】ChatPPT好不好用?如何用?用户操作手册来啦!——【AI溯源篇】
人工智能·信息可视化·powerpoint·ai生成ppt·aippt