谈一谈多模态

多模态这摊子事,现在算是CV和NLP两派混战的擂台。

发展路线如下:

多模态视觉-语言模型演进详表

名称 特点(核心贡献) 时间(公认) 发表会议/机构
ViT Vision Transformer:首次将纯Transformer架构成功应用于图像分类,摒弃CNN,将图像分割为图块序列处理,奠定了视觉领域的基础Transformer骨干网络。 2020年10月 ICLR 2021
CLIP Contrastive Language-Image Pre-training :开创性的大规模图文对比学习模型。通过海量网络图文对进行对比训练,学习强大的跨模态对齐能力,实现零样本图像分类和强大的图文检索。 2021年2月 ICML 2021 (来自OpenAI)
MoCo / iBOT 动量对比 / 自监督视觉预训练 :MoCo是自监督视觉表征学习的里程碑。iBOT是其扩展,通过在图像掩码预测任务中进行自蒸馏学习,获得高质量的通用视觉特征。它们是强大的视觉编码器预备工作。 MoCo: 2019.11; iBOT: 2021.11 CVPR 2020 / Arxiv
ALBEF Align Before Fuse :提出"先对齐,后融合"的VLP范式。引入动量蒸馏技术,从动量教师模型中提取软标签来学习,缓解网络噪声数据带来的影响,提升模型鲁棒性。 2021年7月 NeurIPS 2021
BLIP Bootstrapping Language-Image Pre-training :首个统一理解生成 任务的VLP框架。提出MED 混合架构和CapFilt数据增强法(Captioner生成描述,Filter过滤噪声),大幅提升多任务性能。 2022年1月 ICML 2022 (来自Salesforce)
Flamingo Few-shot 多模态大模型 :将预训练的视觉编码器和语言模型(Chinchilla)通过感知器重采样器 等新颖模块连接,实现在少样本 甚至零样本设定下的出色多模态对话和推理能力。 2022年4月 NeurIPS 2022 (来自DeepMind)
BLIP-2 通用高效的视觉-语言预训练 :提出Q-Former ,一个轻量的查询Transformer,作为冻结的图像编码器和冻结的大语言模型之间的高效桥梁,用极少的可训练参数实现强大的多模态能力。 2023年1月 Arxiv (来自Salesforce)
LLaVA系列 Large Language and Vision Assistant :开创了开源视觉指令微调的先河。将CLIP视觉编码器与Vicuna/LLaMA等开源LLM连接,通过高质量的视觉-语言指令数据进行微调,实现媲美GPT-4V的多模态对话能力。 2023年4月 (v1) NeurIPS 2023 (来自威斯康星大学等)
Llama 3.2 Vision Meta官方多模态大模型 :作为Llama 3系列的一部分,是Meta发布的官方原生多模态版本。它深度集成了视觉理解能力,在指令遵循、细节描述和推理方面表现优异,是闭源多模态模型的有力竞争者。 2024年7月 Meta官方发布
相关推荐
shangjian0071 天前
AI-大语言模型LLM-模型文件说明
人工智能·语言模型·自然语言处理
天云数据1 天前
智慧养老新范式:虚拟陪伴与数字回忆录如何用AI破解老年孤独与记忆传承难题
人工智能
Candice Can1 天前
【机器学习】吴恩达机器学习Lecture3-Linear Algebra review(optional) 线性代数回顾
人工智能·线性代数·机器学习·吴恩达机器学习
ZPC82101 天前
机器人手眼标定
人工智能·python·数码相机·算法·机器人
张艾拉 Fun AI Everyday1 天前
Sparkli AI:塑造 5-12 岁孩子“金钱观”和“商业思维”的闯关游戏
人工智能·游戏
机器学习之心HML1 天前
PGA+MKAN+Timexer时间序列预测模型Pytorch架构
人工智能·pytorch·python
爱打代码的小林1 天前
基于 OpenCV+Dlib 的实时人脸分析系统:年龄性别检测 + 疲劳监测 + 表情识别
人工智能·opencv·计算机视觉
jianwuhuang821 天前
豆包内容导出图片
人工智能·chatgpt
瑞华丽PLM1 天前
从设计到制造的“断裂带”:汽车零部件企业如何通过 eBOM 与 mBOM 的无缝转化降低成本?
大数据·人工智能·汽车·制造·国产plm·瑞华丽plm·瑞华丽
查无此人byebye1 天前
阿里开源Wan2.2模型全面解析:MoE架构加持,电影级视频生成触手可及
人工智能·pytorch·python·深度学习·架构·开源·音视频