【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
huazi-J26 分钟前
Datawhale 大模型基础与量化微调 task0:Tokenizer
语言模型·大模型·tokenizer·datawhale
bryant_meng11 小时前
【DLNR】《High-frequency Stereo Matching Network》
人工智能·深度学习·计算机视觉·stereo matching·dlnr
少林码僧13 小时前
2.9 字段分箱技术详解:连续变量离散化,提升模型效果的关键步骤
人工智能·ai·数据分析·大模型
AI情报挖掘日志13 小时前
AGI-Next前沿峰会「沉思报告」——中国AGI背后的产业逻辑与战略分野
大模型·aminer·大模型研究
mahtengdbb114 小时前
YOLOv10n-ADown改进实现路面裂缝与坑洼检测_计算机视觉_目标检测_道路维护_智能检测系统
yolo·目标检测·计算机视觉
CoovallyAIHub15 小时前
工业视觉检测:多模态大模型的诱惑
深度学习·算法·计算机视觉
睡醒了叭15 小时前
目标检测-机器学习-Hog+SVM附代码python)
目标检测·机器学习·计算机视觉
明月照山海-16 小时前
机器学习周报三十
人工智能·机器学习·计算机视觉
kisshuan1239616 小时前
YOLO11-RevCol_声呐图像多目标检测_人员水雷飞机船舶识别与定位
人工智能·目标检测·计算机视觉
Rui_Freely17 小时前
Vins-Fusion之 SFM准备篇(十二)
人工智能·算法·计算机视觉