视觉语言模型

十有久诚25 天前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次,并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层(即自关注层和前馈层[13]), X P r o j XProj XProj是指文本或图像投影层。注意,本实验仅使用来自所有数据集的训练样例进行评估。
十有久诚1 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示, π \pi π在类聚类方面没有显示出很大的差异,这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后,如图(b)所示,效果也是如此
十有久诚1 个月前
人工智能·计算机视觉·提示学习·视觉语言模型·1024程序员节
ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities目前的工作集中于单模提示发现,即一种模态只有一个提示,这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重,因为视觉和文本概念及其对齐都需要推断。此外,仅用全局特征来表示图像和标记是不可靠的[29,30],可能会失去目标物体的局部区域特征,导致次优分类。
十有久诚1 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
MoCoOp: Mixture of Prompt Learning for Vision Language Models如图1所示,对于一个数据集,单个软提示可能不足以捕获数据中呈现的各种样式。同一数据集中的不同实例可能与不同的提示符兼容。因此,更**自然的做法是使用多个提示来充分表示这些变化**。
十有久诚1 个月前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型
DEPT:DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING(1)Prompt Tuning通常收敛缓慢,并且对初始化敏感;(2)Prompt Tuning延长了输入序列的总长度,从而加剧了计算需求(即训练/推理时间和内存成本),这是由于Transformer的二次复杂度(Vaswani et al, 2017)。
小小帅AIGC2 个月前
人工智能·深度学习·计算机视觉·语言模型·llm·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang
十有久诚2 个月前
深度学习·提示学习·视觉语言模型
TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model原文:具有图像特定知识的图像条件提示符号在提升类嵌入分布方面的能力较差。个人理解:单纯把"a photo of {class}"这种提示模版作为输入是不利于text encoder学习的
十有久诚2 个月前
人工智能·深度学习·提示学习·视觉语言模型
NEMESIS: NORMALIZING THE SOFT-PROMPT VECTORS OF VISION-LANGUAGE MODELSNorm增加会导致性能下降,Norm降低会导致性能上升。于是作者提出:我们需要规范化VLMs中的软提示吗?
十有久诚2 个月前
人工智能·深度学习·提示学习·视觉语言模型
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?本文的作者针对了提示学习的结构设计进行了分析,发现了一些规律:1)固定的类名令牌为模型的优化提供了强正则化,减少了由噪声样本引起的梯度。
十有久诚2 个月前
人工智能·深度学习·提示学习·视觉语言模型
E2VPT: An Effective and Efficient Approach for Visual Prompt Tuning1.以前的提示微调方法那样只关注修改输入,而应该明确地研究在微调过程中改进自注意机制的潜力,并探索参数效率的极限。
十有久诚2 个月前
人工智能·深度学习·提示学习·视觉语言模型
TaskRes: Task Residual for Tuning Vision-Language Models在提示调优中缺乏对先验知识保存的保证(me:即提示微调有可能会丢失预训练模型中的通用知识)。虽然预先训练的文本分支模块(如文本编码器和投影)的权重在提示调优范式中被冻结,但原始的良好学习的分类边界或多或少受到破坏。这是因为输入提示的调优最终会得到一个新的边界,如果没有显式的正则化,这个边界可能会忘记旧的知识。
萤火架构3 个月前
机器学习·视觉语言模型·cogvlm2
(赠书)国产开源视觉语言模型CogVLM2在线体验:竟能识别黑悟空CogVLM2是一款视觉语言模型(Visual Language Model),由智谱AI和清华KEG潜心打磨。这款模型是CogVLM的升级版本,支持高达 1344 * 1344 的图像分辨率,提供支持 中英文双语 的开源模型版本。
HuggingFace4 个月前
微调·视觉语言模型·florence2
微调 Florence-2 - 微软的尖端视觉语言模型Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力,因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现出色。
小小帅AIGC4 个月前
人工智能·计算机视觉·语言模型·自然语言处理·大语言模型·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.07.01-2024.07.05标题:InternLM-XComposer-2.5:支持长语境输入和输出的多功能大型视觉语言模型author:Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li
小小帅AIGC5 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.05-2024.06.10标题:TRINS:建立能够阅读的多模态语言模型author:Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun
小小帅AIGC5 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型·论文推送·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.06.01-2024.06.05标题:CountCLIP – [Re] 教 CLIP 数到十author:Harshvardhan Mestha, Tejas Agarwal, Karan Bania, Shreyas V, Yash Bhisikar
小小帅AIGC6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.10-2024.05.20标题:Diff-BGM:视频背景音乐生成的扩散模型author:Sizhe Li, Yiming Qin, Minghang Zheng, Xin Jin, Yang Liu
小小帅AIGC6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.15-2024.04.25标题:AutoGluon-Multimodal (AutoMM):用基础模型增强多模态 AutoMLauthor:Zhiqiang Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis
小小帅AIGC6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·多模态·视觉语言模型·vlm
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.04.25-2024.05.01标题:用于领域泛化的软提示生成author:Shuanghao Bai, Yuedi Zhang, Wanqi Zhou, Zhirong Luan, Badong Chen
大数据AI人工智能培训专家培训讲师叶梓6 个月前
人工智能·计算机视觉·语言模型·自然语言处理·大模型·遥感·视觉语言模型
H2RSVLM:引领遥感视觉语言模型的革命随着人工智能技术的飞速发展,遥感图像理解在环境监测、气候变化、粮食安全和灾害预警等多个领域扮演着越来越重要的角色。然而,现有的通用视觉语言模型(VLMs)在处理遥感图像时仍面临挑战,主要因为遥感图像的独特性和当前VLMs相对有限的空间感知能力。为了克服这些限制,研究者们提出了H2RSVLM,即“Helpful and Honest Remote Sensing Vision Language Model”,这是一个专为遥感领域设计的新型视觉语言模型。本文将详细介绍H2RSVLM模型的创新之处,包括其用于R