视觉语言模型

EDPJ11 天前
人工智能·深度学习·计算机视觉·视觉语言模型
(2023|NIPS,LLaVA-Med,生物医学 VLM,GPT-4 生成自指导指令跟随数据集,数据对齐,指令调优)目录LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
EDPJ12 天前
人工智能·深度学习·视觉语言模型
(2025,Cosmos,世界基础模型 (WFM) 平台,物理 AI,数据处理,分词器,世界基础模型预训练/后训练,3D一致性)Cosmos World Foundation Model Platform for Physical AI
HuggingFace1 个月前
视觉语言模型·paligemma2
欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。
威化饼的一隅1 个月前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
十有久诚1 个月前
人工智能·计算机视觉·提示学习·提示·视觉语言模型·域外检测
DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detectionme:看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。
十有久诚1 个月前
人工智能·深度学习·提示学习·视觉语言模型
RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning对CoOp的改进CoCoOp尽管提升了性能,但却增加了方差(模型的准确率波动性较大)。一眼看去,跟maple很像(maple跟这篇文章都是2023年发表的),但maple的视觉提示是由文本提示经过全连接转换而来的,而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。
十有久诚2 个月前
人工智能·深度学习·计算机视觉·视觉语言模型·适配器微调
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained ModelsCLIP和CLIP-Adapter等方法的一个主要局限性是,它们没有对视觉编码器所编码的底层表示进行显著的修改。原因很简单:微调大型模型需要大量的监督,这在低监督学习设置中是很难获得的。如果下游分类任务的图像来自与互联网常见图像相同的分布,那么这不一定是个问题。然而,如果图像差异显著,例如医学或生物多样性监测图像,那么从视觉编码器提取的表示很可能不适合当前任务。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次,并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层(即自关注层和前馈层[13]), X P r o j XProj XProj是指文本或图像投影层。注意,本实验仅使用来自所有数据集的训练样例进行评估。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示, π \pi π在类聚类方面没有显示出很大的差异,这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后,如图(b)所示,效果也是如此
十有久诚3 个月前
人工智能·计算机视觉·提示学习·视觉语言模型·1024程序员节
ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities目前的工作集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
MoCoOp: Mixture of Prompt Learning for Vision Language Models如图1所示,对于一个数据集,单个软提示可能不足以捕获数据中呈现的各种样式。同一数据集中的不同实例可能与不同的提示符兼容。因此,更**自然的做法是使用多个提示来充分表示这些变化**。
十有久诚3 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
DEPT:DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING(1)Prompt Tuning通常收敛缓慢,并且对初始化敏感;(2)Prompt Tuning延长了输入序列的总长度,从而加剧了计算需求(即训练/推理时间和内存成本),这是由于Transformer的二次复杂度(Vaswani et al, 2017)。
小小帅AIGC4 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
十有久诚4 个月前
深度学习·提示学习·视觉语言模型
TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model原文:具有图像特定知识的图像条件提示符号在提升类嵌入分布方面的能力较差。个人理解:单纯把"a photo of {class}"这种提示模版作为输入是不利于text encoder学习的
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
NEMESIS: NORMALIZING THE SOFT-PROMPT VECTORS OF VISION-LANGUAGE MODELSNorm增加会导致性能下降,Norm降低会导致性能上升。于是作者提出:我们需要规范化VLMs中的软提示吗?
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?本文的作者针对了提示学习的结构设计进行了分析,发现了一些规律:1)固定的类名令牌为模型的优化提供了强正则化,减少了由噪声样本引起的梯度。
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning1.以前的提示微调方法那样只关注修改输入,而应该明确地研究在微调过程中改进自注意机制的潜力,并探索参数效率的极限。
十有久诚4 个月前
人工智能·深度学习·提示学习·视觉语言模型
TaskRes: Task Residual for Tuning Vision-Language Models在提示调优中缺乏对先验知识保存的保证(me:即提示微调有可能会丢失预训练模型中的通用知识)。虽然预先训练的文本分支模块(如文本编码器和投影)的权重在提示调优范式中被冻结,但原始的良好学习的分类边界或多或少受到破坏。这是因为输入提示的调优最终会得到一个新的边界,如果没有显式的正则化,这个边界可能会忘记旧的知识。
萤火架构5 个月前
机器学习·视觉语言模型·cogvlm2
(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空CogVLM2是一款视觉语言模型(Visual Language Model),由智谱AI和清华KEG潜心打磨。这款模型是CogVLM的升级版本,支持高达 1344 * 1344 的图像分辨率,提供支持 中英文双语 的开源模型版本。
HuggingFace6 个月前
微调·视觉语言模型·florence2
微调 Florence-2 - 微软的尖端视觉语言模型Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。