视觉语言模型

从LLM到VLM：视觉语言模型的核心技术与Python实现本教程的完整代码可以在GitHub上找到，如果你有任何问题或建议，欢迎交流讨论。当我们与ChatGPT对话时，它能够理解复杂的文字描述，生成流畅的回答。但如果我们给它一张图片，问"这张图片里有什么？"，传统的LLM就无能为力了。这个局限揭示了一个重要问题：人类的认知不仅仅依赖文字，视觉信息同样重要。

LlamaFactory——如何使用魔改后的模型需求来源：有时我们可能想在llamafactory框架支持的模型上进行一些改动，例如修改forward()方法等，修改方法我们可以通过继承Transformers库中相应的class并重写相应的方法即可，那我们如何使用自己的模型呢？

读一篇AI论文并理解——通过幻觉诱导优化缓解大型视觉语言模型中的幻觉目录论文介绍标题作者PublishDate TimePDF文章下载地址文章理解分析📄 中文摘要：《通过幻觉诱导优化缓解大型视觉语言模型中的幻觉》

Modular Prompt Learning Improves_Vision-Language Models浅层连续提示方法将提示插入到第一个Transformer层的输入中，这些提示参与到后续所有Transformer层的上下文化过程（即自注意力机制[16]）中。而深层提示方法则持续用新插入的提示替换原有的连续提示。一个自然的问题是：移除插入的提示是否会丢失其中包含的信息？

一点人工一点智能

Harmon：从语言描述中生成人形机器人的全身动作编辑：陈萍萍的公主@一点人工一点智能Harmon | 从语言描述中生成人形机器人的全身动作这篇论文介绍了一种名为“HARMON”的方法，用于从自然语言描述中生成人形机器人的全身运动。https://mp.weixin.qq.com/s/AYwufIE_cABB1e3jTTHeQQ

（2024|Nature Medicine，生物医学 AI，BiomedGPT）面向多种生物医学任务的通用视觉-语言基础模型目录1. 摘要2. 引言3. 相关研究3.1 基础模型与通用生物医学 AI3.2 生物医学 AI 的局限性

（2024|NEJM，多模态医学应用，Med-PaLM M，MultiMedBench，医学问答）迈向通用生物医学 AI目录1. 引言2. 相关研究2.1 基础模型与多模态 AI2.2 生物医学多模态 AI2.3 生物医学 AI 基准（Benchmarks）

（2023|NIPS，LLaVA-Med，生物医学 VLM，GPT-4 生成自指导指令跟随数据集，数据对齐，指令调优）目录LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

（2025，Cosmos，世界基础模型 (WFM) 平台，物理 AI，数据处理，分词器，世界基础模型预训练/后训练，3D一致性）Cosmos World Foundation Model Platform for Physical AI

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2，这是 PaliGemma 的一个新版本。与其前代产品一样，PaliGemma 2 使用强大的 SigLIP 进行视觉处理，但在文本解码部分升级到了最新的 Gemma 2。

威化饼的一隅

【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构，现在开始学习使用minicpm-v-2.6模型，记录学习过程，欢迎批评指正～

DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detectionme：看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。

RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning对CoOp的改进CoCoOp尽管提升了性能，但却增加了方差（模型的准确率波动性较大）。一眼看去，跟maple很像(maple跟这篇文章都是2023年发表的)，但maple的视觉提示是由文本提示经过全连接转换而来的，而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。

SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained ModelsCLIP和CLIP-Adapter等方法的一个主要局限性是，它们没有对视觉编码器所编码的底层表示进行显著的修改。原因很简单：微调大型模型需要大量的监督，这在低监督学习设置中是很难获得的。如果下游分类任务的图像来自与互联网常见图像相同的分布，那么这不一定是个问题。然而，如果图像差异显著，例如医学或生物多样性监测图像，那么从视觉编码器提取的表示很可能不适合当前任务。

MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次，并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层（即自关注层和前馈层[13]）， X P r o j XProj XProj是指文本或图像投影层。注意，本实验仅使用来自所有数据集的训练样例进行评估。

AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示， π \pi π在类聚类方面没有显示出很大的差异，这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后，如图(b)所示，效果也是如此

ALIGN_ Tuning Multi-mode Token-level Prompt Alignment across Modalities目前的工作集中于单模提示发现，即一种模态只有一个提示，这可能不足以代表一个类[17]。这个问题在多模态提示学习中更为严重，因为视觉和文本概念及其对齐都需要推断。此外，仅用全局特征来表示图像和标记是不可靠的[29,30]，可能会失去目标物体的局部区域特征，导致次优分类。

MoCoOp: Mixture of Prompt Learning for Vision Language Models如图1所示，对于一个数据集，单个软提示可能不足以捕获数据中呈现的各种样式。同一数据集中的不同实例可能与不同的提示符兼容。因此，更**自然的做法是使用多个提示来充分表示这些变化**。

DEPT：DECOMPOSED PROMPT TUNING FOR PARAMETER-EFFICIENT FINE-TUNING(1)Prompt Tuning通常收敛缓慢，并且对初始化敏感；(2)Prompt Tuning延长了输入序列的总长度，从而加剧了计算需求(即训练/推理时间和内存成本)，这是由于Transformer的二次复杂度(Vaswani et al, 2017)。

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.09.10-2024.09.15标题:通过 "f$-发散最小化 "推广 "文本到图像 "偏好生成的对齐范式author:Haoyuan Sun, Bo Xia, Yongzhe Chang, Xueqian Wang