已读论文创新点合集

系列文章目录


文章目录

  • 系列文章目录
  • [一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》](#一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》)
  • [二、《MaPLe: Multi-modal Prompt Learning》](#二、《MaPLe: Multi-modal Prompt Learning》)
  • [三、《Learning to Prompt for Vision-Language Models》CoOp](#三、《Learning to Prompt for Vision-Language Models》CoOp)

一、《LAMM: Label Alignment for Multi-Modal Prompt Learning》

第一、本文提出了一种标记对齐技术LAMM,它通过梯度优化来自动搜索最优嵌入。据论文作者所知,可训练类别标记的概念是在预训练的VL模型中首次提出的。

第二、为了避免整个提示模板的语义特征偏离太远,作者在训练阶段引入了层次丢失。层次损失便于在参数、特征和logit空间之间对齐类别表示。通过这些操作,CLIP模型的泛化能力在LAMM中得以保留,使得LAMM在下游任务中更好地区分不同的类别,同时保留了原始类别描述的语义。

第三、假定LAMM仅微调下游数据集中的标签嵌入,则它不会遇到在连续学习期间传统方法中通常遇到的灾难性遗忘问题。

二、《MaPLe: Multi-modal Prompt Learning》

(1)我们建议在CLIP中采用多模态快速学习,以使其视觉语言表征更好地保持一致。据我们所知,这是第一个用于微调CLIP的多模态提示方法.

(2)为了将在文本和图像编码器中学习到的提示联系起来,我们提出了一个耦合函数,以明确地将视觉提示条件化到它们的语言对应物上。它是两种模式之间的桥梁,允许梯度的相互传播,以促进协同作用。

(3)我们的多模态提示是在视觉和语言分支的多个Transformer模块中学习的,以逐步学习两种模态的协同行为。这种深度提示策略允许独立地对上下文关系建模,从而提供更大的灵活性来对齐视觉-语言表示。

三、《Learning to Prompt for Vision-Language Models》CoOp

(1)我们提出了一项关于在下游应用中调整最近提出的视觉语言模型的及时研究,并确定了与部署效率相关的一个关键问题,即,提示工程。

(2)为了实现针对预训练的视觉语言模型的提示工程的自动化,我们提出了一种基于连续提示学习的简单方法,并提供了两种可以处理不同识别任务的实现。

(3)我们首次证明了所提出的基于即时学习的方法在大型视觉语言模型的下游迁移学习性能和域转移下的鲁棒性方面优于手工制作的提示和线性探测模型。

(4)我们在github上开放了我们的项目的源代码。

相关推荐
Coding茶水间7 分钟前
基于深度学习的螺栓螺母检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
yiersansiwu123d8 分钟前
AI全球善治的困境突破与中国方案的实践路径
人工智能
老蒋新思维12 分钟前
反脆弱性设计:创始人IP与AI智能体如何构建愈动荡愈强大的知识商业|创客匠人
人工智能·网络协议·tcp/ip·算法·机器学习·创始人ip·创客匠人
zyxzyx4915 分钟前
AI 实战:从零搭建轻量型文本分类系统
大数据·人工智能·分类
AI小怪兽17 分钟前
RF-DETR:实时检测Transformer的神经架构搜索,首个突破 60 AP 的实时检测器 | ICLR 2026 in Submission
人工智能·深度学习·yolo·目标检测·架构·transformer
黑客思维者18 分钟前
机器学习003:无监督学习(概论)--机器如何学会“自己整理房间”
人工智能·学习·机器学习·无监督学习
子洋19 分钟前
AI Agent 介绍
前端·人工智能·后端
黑客思维者20 分钟前
阶跃星辰:从技术理想主义到多模态AI独角兽的崛起之路
人工智能·阶跃星辰·行业研究
长空任鸟飞_阿康20 分钟前
LangGraph 技术详解:基于图结构的 AI 工作流与多智能体编排框架
人工智能·python·langchain
【建模先锋】20 分钟前
故障诊断模型讲解:基于1D-CNN、2D-CNN分类模型的详细教程!
人工智能·深度学习·分类·cnn·卷积神经网络·故障诊断·轴承故障诊断