视觉语言模型

这张生成的图像能检测吗11 天前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型
(综述)视觉任务的视觉语言模型论文题目:Vision-Language Models for Vision Tasks: A Survey(视觉任务的视觉语言模型:综述)
知来者逆17 天前
人工智能·语言模型·自然语言处理·音视频·视觉语言模型·qwen 2.5 vl
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南随着多媒体技术的飞速发展,视频数据已成为信息传递的主要载体之一。然而,对视频内容进行高效、精准的理解与分析仍面临诸多挑战,尤其是在处理时空动态信息方面。Qwen 2.5 视觉-语言(VL)模型的问世为解决这一难题提供了突破性方案。
这张生成的图像能检测吗19 天前
人工智能·计算机视觉·语言模型·视觉语言模型
(论文速读)视觉语言模型评价中具有挑战性的选择题的自动生成论文题目:Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation(视觉语言模型评价中具有挑战性的选择题的自动生成)
HyperAI超神经1 个月前
机器人·大语言模型·视觉语言模型·英伟达·physical ai·实时智能交互·gpu 架构
售价3499美元,英伟达Jetson Thor实现机器人与物理世界的实时智能交互黄仁勋曾公开表示,机器人是英伟达在人工智能之外的最大增长机会。在 2025 年 1 月初开幕的 CES 2025 上,老黄更是高喊「AI 的下一个前沿是物理」,就像当年押注 OpenAI 一般,他如今的选择是 Physical AI 引领的机器人赛道。
贾全2 个月前
人工智能·python·ai·机器人·视觉语言模型·vlm
从LLM到VLM:视觉语言模型的核心技术与Python实现本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。当我们与ChatGPT对话时,它能够理解复杂的文字描述,生成流畅的回答。但如果我们给它一张图片,问"这张图片里有什么?",传统的LLM就无能为力了。这个局限揭示了一个重要问题:人类的认知不仅仅依赖文字,视觉信息同样重要。
闰土_RUNTU4 个月前
人工智能·python·深度学习·视觉语言模型·llama factory
LlamaFactory——如何使用魔改后的模型需求来源:有时我们可能想在llamafactory框架支持的模型上进行一些改动,例如修改forward()方法等,修改方法我们可以通过继承Transformers库中相应的class并重写相应的方法即可,那我们如何使用自己的模型呢?
WenGyyyL5 个月前
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型
读一篇AI论文并理解——通过幻觉诱导优化缓解大型视觉语言模型中的幻觉目录论文介绍标题作者PublishDate TimePDF文章下载地址文章理解分析📄 中文摘要:《通过幻觉诱导优化缓解大型视觉语言模型中的幻觉》
十有久诚7 个月前
人工智能·提示学习·多模态·视觉语言模型
Modular Prompt Learning Improves_Vision-Language Models浅层连续提示方法将提示插入到第一个Transformer层的输入中,这些提示参与到后续所有Transformer层的上下文化过程(即自注意力机制[16])中。而深层提示方法则持续用新插入的提示替换原有的连续提示。一个自然的问题是:移除插入的提示是否会丢失其中包含的信息?
一点人工一点智能7 个月前
机器人·视觉语言模型·具身智能·人形机器人
Harmon:从语言描述中生成人形机器人的全身动作编辑:陈萍萍的公主@一点人工一点智能Harmon | 从语言描述中生成人形机器人的全身动作这篇论文介绍了一种名为“HARMON”的方法,用于从自然语言描述中生成人形机器人的全身运动。https://mp.weixin.qq.com/s/AYwufIE_cABB1e3jTTHeQQ
EDPJ8 个月前
人工智能·计算机视觉·语言模型·视觉语言模型
(2024|Nature Medicine,生物医学 AI,BiomedGPT)面向多种生物医学任务的通用视觉-语言基础模型目录1. 摘要2. 引言3. 相关研究3.1 基础模型与通用生物医学 AI3.2 生物医学 AI 的局限性
EDPJ8 个月前
人工智能·语言模型·视觉语言模型·palm
(2024|NEJM,多模态医学应用,Med-PaLM M,MultiMedBench,医学问答)迈向通用生物医学 AI目录1. 引言2. 相关研究2.1 基础模型与多模态 AI2.2 生物医学多模态 AI2.3 生物医学 AI 基准(Benchmarks)
EDPJ9 个月前
人工智能·深度学习·计算机视觉·视觉语言模型
(2023|NIPS,LLaVA-Med,生物医学 VLM,GPT-4 生成自指导指令跟随数据集,数据对齐,指令调优)目录LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
EDPJ9 个月前
人工智能·深度学习·视觉语言模型
(2025,Cosmos,世界基础模型 (WFM) 平台,物理 AI,数据处理,分词器,世界基础模型预训练/后训练,3D一致性)Cosmos World Foundation Model Platform for Physical AI
HuggingFace9 个月前
视觉语言模型·paligemma2
欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。
威化饼的一隅9 个月前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
十有久诚10 个月前
人工智能·计算机视觉·提示学习·提示·视觉语言模型·域外检测
DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detectionme:看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。
十有久诚10 个月前
人工智能·深度学习·提示学习·视觉语言模型
RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning对CoOp的改进CoCoOp尽管提升了性能,但却增加了方差(模型的准确率波动性较大)。一眼看去,跟maple很像(maple跟这篇文章都是2023年发表的),但maple的视觉提示是由文本提示经过全连接转换而来的,而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。
十有久诚10 个月前
人工智能·深度学习·计算机视觉·视觉语言模型·适配器微调
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained ModelsCLIP和CLIP-Adapter等方法的一个主要局限性是,它们没有对视觉编码器所编码的底层表示进行显著的修改。原因很简单:微调大型模型需要大量的监督,这在低监督学习设置中是很难获得的。如果下游分类任务的图像来自与互联网常见图像相同的分布,那么这不一定是个问题。然而,如果图像差异显著,例如医学或生物多样性监测图像,那么从视觉编码器提取的表示很可能不适合当前任务。
十有久诚1 年前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
MMA: Multi-Modal Adapter for Vision-Language Models图1所示。各种基于transformer的CLIP模型中不同层的数据集级识别精度。这个实验是为了确定样本属于哪个数据集。我们用不同的种子运行了三次,并报告了每层识别精度的平均值和标准差。 X E m b e d XEmbed XEmbed是指变压器块之前的文本或图像嵌入层(即自关注层和前馈层[13]), X P r o j XProj XProj是指文本或图像投影层。注意,本实验仅使用来自所有数据集的训练样例进行评估。
十有久诚1 年前
人工智能·深度学习·计算机视觉·提示学习·视觉语言模型·1024程序员节
AAPL: Adding Attributes to Prompt Learning for Vision-Language Models如下图(a)所示, π \pi π在类聚类方面没有显示出很大的差异,这表明元标记 π \pi π未能捕获分类的关键语义特征。我们进行简单的数据增强后,如图(b)所示,效果也是如此