谈一谈多模态

多模态这摊子事，现在算是CV和NLP两派混战的擂台。

发展路线如下：

多模态视觉-语言模型演进详表

名称	特点（核心贡献）	时间（公认）	发表会议/机构
ViT	Vision Transformer：首次将纯Transformer架构成功应用于图像分类，摒弃CNN，将图像分割为图块序列处理，奠定了视觉领域的基础Transformer骨干网络。	2020年10月	ICLR 2021
CLIP	Contrastive Language-Image Pre-training ：开创性的大规模图文对比学习模型。通过海量网络图文对进行对比训练，学习强大的跨模态对齐能力，实现零样本图像分类和强大的图文检索。	2021年2月	ICML 2021 (来自OpenAI)
MoCo / iBOT	动量对比 / 自监督视觉预训练：MoCo是自监督视觉表征学习的里程碑。iBOT是其扩展，通过在图像掩码预测任务中进行自蒸馏学习，获得高质量的通用视觉特征。它们是强大的视觉编码器预备工作。	MoCo: 2019.11; iBOT: 2021.11	CVPR 2020 / Arxiv
ALBEF	Align Before Fuse ：提出"先对齐，后融合"的VLP范式。引入动量蒸馏技术，从动量教师模型中提取软标签来学习，缓解网络噪声数据带来的影响，提升模型鲁棒性。	2021年7月	NeurIPS 2021
BLIP	Bootstrapping Language-Image Pre-training ：首个统一理解与生成任务的VLP框架。提出MED 混合架构和CapFilt数据增强法（Captioner生成描述，Filter过滤噪声），大幅提升多任务性能。	2022年1月	ICML 2022 (来自Salesforce)
Flamingo	Few-shot 多模态大模型：将预训练的视觉编码器和语言模型（Chinchilla）通过感知器重采样器等新颖模块连接，实现在少样本甚至零样本设定下的出色多模态对话和推理能力。	2022年4月	NeurIPS 2022 (来自DeepMind)
BLIP-2	通用高效的视觉-语言预训练：提出Q-Former ，一个轻量的查询Transformer，作为冻结的图像编码器和冻结的大语言模型之间的高效桥梁，用极少的可训练参数实现强大的多模态能力。	2023年1月	Arxiv (来自Salesforce)
LLaVA系列	Large Language and Vision Assistant ：开创了开源视觉指令微调的先河。将CLIP视觉编码器与Vicuna/LLaMA等开源LLM连接，通过高质量的视觉-语言指令数据进行微调，实现媲美GPT-4V的多模态对话能力。	2023年4月 (v1)	NeurIPS 2023 (来自威斯康星大学等)
Llama 3.2 Vision	Meta官方多模态大模型：作为Llama 3系列的一部分，是Meta发布的官方原生多模态版本。它深度集成了视觉理解能力，在指令遵循、细节描述和推理方面表现优异，是闭源多模态模型的有力竞争者。	2024年7月	Meta官方发布