谈一谈多模态

多模态这摊子事,现在算是CV和NLP两派混战的擂台。

发展路线如下:

多模态视觉-语言模型演进详表

名称 特点(核心贡献) 时间(公认) 发表会议/机构
ViT Vision Transformer:首次将纯Transformer架构成功应用于图像分类,摒弃CNN,将图像分割为图块序列处理,奠定了视觉领域的基础Transformer骨干网络。 2020年10月 ICLR 2021
CLIP Contrastive Language-Image Pre-training :开创性的大规模图文对比学习模型。通过海量网络图文对进行对比训练,学习强大的跨模态对齐能力,实现零样本图像分类和强大的图文检索。 2021年2月 ICML 2021 (来自OpenAI)
MoCo / iBOT 动量对比 / 自监督视觉预训练 :MoCo是自监督视觉表征学习的里程碑。iBOT是其扩展,通过在图像掩码预测任务中进行自蒸馏学习,获得高质量的通用视觉特征。它们是强大的视觉编码器预备工作。 MoCo: 2019.11; iBOT: 2021.11 CVPR 2020 / Arxiv
ALBEF Align Before Fuse :提出"先对齐,后融合"的VLP范式。引入动量蒸馏技术,从动量教师模型中提取软标签来学习,缓解网络噪声数据带来的影响,提升模型鲁棒性。 2021年7月 NeurIPS 2021
BLIP Bootstrapping Language-Image Pre-training :首个统一理解生成 任务的VLP框架。提出MED 混合架构和CapFilt数据增强法(Captioner生成描述,Filter过滤噪声),大幅提升多任务性能。 2022年1月 ICML 2022 (来自Salesforce)
Flamingo Few-shot 多模态大模型 :将预训练的视觉编码器和语言模型(Chinchilla)通过感知器重采样器 等新颖模块连接,实现在少样本 甚至零样本设定下的出色多模态对话和推理能力。 2022年4月 NeurIPS 2022 (来自DeepMind)
BLIP-2 通用高效的视觉-语言预训练 :提出Q-Former ,一个轻量的查询Transformer,作为冻结的图像编码器和冻结的大语言模型之间的高效桥梁,用极少的可训练参数实现强大的多模态能力。 2023年1月 Arxiv (来自Salesforce)
LLaVA系列 Large Language and Vision Assistant :开创了开源视觉指令微调的先河。将CLIP视觉编码器与Vicuna/LLaMA等开源LLM连接,通过高质量的视觉-语言指令数据进行微调,实现媲美GPT-4V的多模态对话能力。 2023年4月 (v1) NeurIPS 2023 (来自威斯康星大学等)
Llama 3.2 Vision Meta官方多模态大模型 :作为Llama 3系列的一部分,是Meta发布的官方原生多模态版本。它深度集成了视觉理解能力,在指令遵循、细节描述和推理方面表现优异,是闭源多模态模型的有力竞争者。 2024年7月 Meta官方发布
相关推荐
NAGNIP5 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab6 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab6 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼10 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS10 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区11 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈12 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang12 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx