技术栈
视觉语言模型
这张生成的图像能检测吗
4 天前
人工智能
·
计算机视觉
·
生活
·
视觉语言模型
(论文速读)EgoLife:走向自我中心的生活助手
论文题目:EgoLife: Towards Egocentric Life Assistant(走向自我中心的生活助手)
这张生成的图像能检测吗
12 天前
人工智能
·
语言模型
·
clip
·
视觉语言模型
·
对抗攻击
(论文速读)Anyattack: 面向视觉语言模型的大规模自监督对抗性攻击
论文题目:Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models(任意攻击:面向视觉语言模型的大规模自监督对抗性攻击)
这张生成的图像能检测吗
13 天前
人工智能
·
计算机视觉
·
交互
·
生成模型
·
图像生成
·
视觉语言模型
·
3d重建
(论文速读)InteractVLM: 基于2D基础模型的3D交互推理
论文题目:InteractVLM: 3D Interaction Reasoning from 2D Foundational Models(基于2D基础模型的3D交互推理)
这张生成的图像能检测吗
2 个月前
人工智能
·
计算机视觉
·
语言模型
·
自然语言处理
·
视觉语言模型
(综述)视觉任务的视觉语言模型
论文题目:Vision-Language Models for Vision Tasks: A Survey(视觉任务的视觉语言模型:综述)
知来者逆
2 个月前
人工智能
·
语言模型
·
自然语言处理
·
音视频
·
视觉语言模型
·
qwen 2.5 vl
视觉语言模型应用开发——Qwen 2.5 VL模型视频理解与定位能力深度解析及实践指南
随着多媒体技术的飞速发展,视频数据已成为信息传递的主要载体之一。然而,对视频内容进行高效、精准的理解与分析仍面临诸多挑战,尤其是在处理时空动态信息方面。Qwen 2.5 视觉-语言(VL)模型的问世为解决这一难题提供了突破性方案。
这张生成的图像能检测吗
2 个月前
人工智能
·
计算机视觉
·
语言模型
·
视觉语言模型
(论文速读)视觉语言模型评价中具有挑战性的选择题的自动生成
论文题目:Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation(视觉语言模型评价中具有挑战性的选择题的自动生成)
HyperAI超神经
2 个月前
机器人
·
大语言模型
·
视觉语言模型
·
英伟达
·
physical ai
·
实时智能交互
·
gpu 架构
售价3499美元,英伟达Jetson Thor实现机器人与物理世界的实时智能交互
黄仁勋曾公开表示,机器人是英伟达在人工智能之外的最大增长机会。在 2025 年 1 月初开幕的 CES 2025 上,老黄更是高喊「AI 的下一个前沿是物理」,就像当年押注 OpenAI 一般,他如今的选择是 Physical AI 引领的机器人赛道。
贾全
4 个月前
人工智能
·
python
·
ai
·
机器人
·
视觉语言模型
·
vlm
从LLM到VLM:视觉语言模型的核心技术与Python实现
本教程的完整代码可以在GitHub上找到,如果你有任何问题或建议,欢迎交流讨论。当我们与ChatGPT对话时,它能够理解复杂的文字描述,生成流畅的回答。但如果我们给它一张图片,问"这张图片里有什么?",传统的LLM就无能为力了。这个局限揭示了一个重要问题:人类的认知不仅仅依赖文字,视觉信息同样重要。
闰土_RUNTU
5 个月前
人工智能
·
python
·
深度学习
·
视觉语言模型
·
llama factory
LlamaFactory——如何使用魔改后的模型
需求来源:有时我们可能想在llamafactory框架支持的模型上进行一些改动,例如修改forward()方法等,修改方法我们可以通过继承Transformers库中相应的class并重写相应的方法即可,那我们如何使用自己的模型呢?
WenGyyyL
7 个月前
人工智能
·
计算机视觉
·
语言模型
·
自然语言处理
·
视觉语言模型
读一篇AI论文并理解——通过幻觉诱导优化缓解大型视觉语言模型中的幻觉
目录论文介绍标题作者PublishDate TimePDF文章下载地址文章理解分析📄 中文摘要:《通过幻觉诱导优化缓解大型视觉语言模型中的幻觉》
十有久诚
8 个月前
人工智能
·
提示学习
·
多模态
·
视觉语言模型
Modular Prompt Learning Improves_Vision-Language Models
浅层连续提示方法将提示插入到第一个Transformer层的输入中,这些提示参与到后续所有Transformer层的上下文化过程(即自注意力机制[16])中。而深层提示方法则持续用新插入的提示替换原有的连续提示。一个自然的问题是:移除插入的提示是否会丢失其中包含的信息?
一点人工一点智能
8 个月前
机器人
·
视觉语言模型
·
具身智能
·
人形机器人
Harmon:从语言描述中生成人形机器人的全身动作
编辑:陈萍萍的公主@一点人工一点智能Harmon | 从语言描述中生成人形机器人的全身动作这篇论文介绍了一种名为“HARMON”的方法,用于从自然语言描述中生成人形机器人的全身运动。https://mp.weixin.qq.com/s/AYwufIE_cABB1e3jTTHeQQ
EDPJ
9 个月前
人工智能
·
计算机视觉
·
语言模型
·
视觉语言模型
(2024|Nature Medicine,生物医学 AI,BiomedGPT)面向多种生物医学任务的通用视觉-语言基础模型
目录1. 摘要2. 引言3. 相关研究3.1 基础模型与通用生物医学 AI3.2 生物医学 AI 的局限性
EDPJ
9 个月前
人工智能
·
语言模型
·
视觉语言模型
·
palm
(2024|NEJM,多模态医学应用,Med-PaLM M,MultiMedBench,医学问答)迈向通用生物医学 AI
目录1. 引言2. 相关研究2.1 基础模型与多模态 AI2.2 生物医学多模态 AI2.3 生物医学 AI 基准(Benchmarks)
EDPJ
10 个月前
人工智能
·
深度学习
·
计算机视觉
·
视觉语言模型
(2023|NIPS,LLaVA-Med,生物医学 VLM,GPT-4 生成自指导指令跟随数据集,数据对齐,指令调优)
目录LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
EDPJ
10 个月前
人工智能
·
深度学习
·
视觉语言模型
(2025,Cosmos,世界基础模型 (WFM) 平台,物理 AI,数据处理,分词器,世界基础模型预训练/后训练,3D一致性)
Cosmos World Foundation Model Platform for Physical AI
HuggingFace
1 年前
视觉语言模型
·
paligemma2
欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型
我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2,这是 PaliGemma 的一个新版本。与其前代产品一样,PaliGemma 2 使用强大的 SigLIP 进行视觉处理,但在文本解码部分升级到了最新的 Gemma 2。
威化饼的一隅
1 年前
深度学习
·
多模态
·
视觉语言模型
·
多模态模型
·
minicpm
·
minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习
前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
十有久诚
1 年前
人工智能
·
计算机视觉
·
提示学习
·
提示
·
视觉语言模型
·
域外检测
DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection
me:看得很迷糊新型检测器 M D \mathcal M_D MD的训练是为了对一个子基类去划分子基类中的base和new。
十有久诚
1 年前
人工智能
·
深度学习
·
提示学习
·
视觉语言模型
RPO: Read-only Prompt Optimization for Vision-Language Few-shot Learning
对CoOp的改进CoCoOp尽管提升了性能,但却增加了方差(模型的准确率波动性较大)。一眼看去,跟maple很像(maple跟这篇文章都是2023年发表的),但maple的视觉提示是由文本提示经过全连接转换而来的,而这里是文本提示和视觉提示是独立的。另外maple中的前J层的视觉/文本提示都是学习完之后就丢掉了。