【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
大数据AI人工智能培训专家培训讲师叶梓5 分钟前
Merlin:面向腹部 CT 的三维视觉语言基础模型
人工智能·计算机视觉·大模型·医疗·ct·视觉大模型·医疗人工智能
guslegend2 小时前
系统整体设计方案
人工智能·大模型·知识图谱
guslegend3 小时前
4月5日(大语言模型训练原理)
人工智能·大模型
一 铭3 小时前
Claude Code实现原理分析-架构设计
人工智能·大模型
handsomestWei4 小时前
OneAPI网关使用简介
ai·大模型·llm·oneapi
Fleshy数模6 小时前
解决OpenCV人脸检测报错:(-215:Assertion failed) !empty() 保姆级教程
人工智能·opencv·计算机视觉
行者无疆_ty6 小时前
如何在个人电脑部署大模型实现Token自由
人工智能·大模型·agent
装不满的克莱因瓶6 小时前
Cursor中agent、plan、ask三种模式区别于对比
人工智能·ai·大模型·ai编程·cursor
handsomestWei9 小时前
sqlbot智能问数使用简介
ai·大模型·llm·智能问数·sqlbot
CoderJia程序员甲9 小时前
GitHub 热榜项目 - 日榜(2026-04-05)
人工智能·ai·大模型·github·ai教程