【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
牧子川8 小时前
013-多模型API调用
大模型·api·封装api
CS_Zero10 小时前
事件相机语义分割算法调研总结
计算机视觉·事件相机
guslegend10 小时前
第10节:后端业务基础设施
大模型
Angelina_Jolie12 小时前
DCL:动态因果学习,破解跨模态心脏影像分割时空混淆难题
计算机视觉
汤姆yu15 小时前
视觉编程革命:智谱GLM-5V-Turbo引领Design2Code新范式
ai·大模型·视觉革命
belldeep15 小时前
CSR座席模块 如何结合AI 大模型应用?
人工智能·ai·大模型·csr坐席
小何code16 小时前
人工智能【第30篇】AI学习路径总结与职业规划指南
人工智能·大模型·职业规划·ai学习路径
迪霸LZTXDY16 小时前
U-Net 训练光纤识别
人工智能·深度学习·计算机视觉
li星野18 小时前
LlamaIndex 核心模块详解:从数据连接到智能代理,构建生产级 RAG 系统
大模型·llamaindex·学习记录
Wilber的技术分享19 小时前
【大模型面试八股 2】Function Call、MCP、Skill的区别
人工智能·面试·职场和发展·大模型·llm·agent·智能体开发