【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
CoovallyAIHub9 小时前
YOLO模型优化全攻略:从“准”到“快”,全靠这些招!
深度学习·算法·计算机视觉
超龄超能程序猿1 天前
(三)PS识别:基于噪声分析PS识别的技术实现
图像处理·人工智能·计算机视觉
静心问道1 天前
大型语言模型中的自动化思维链提示
人工智能·语言模型·大模型
Chef_Chen1 天前
从0开始学习计算机视觉--Day07--神经网络
神经网络·学习·计算机视觉
加油吧zkf1 天前
YOLO目标检测数据集类别:分类与应用
人工智能·计算机视觉·目标跟踪
难受啊马飞2.01 天前
如何判断 AI 将优先自动化哪些任务?
运维·人工智能·ai·语言模型·程序员·大模型·大模型学习
加油吧zkf1 天前
水下目标检测:突破与创新
人工智能·计算机视觉·目标跟踪
静心问道1 天前
GoT:超越思维链:语言模型中的有效思维图推理
人工智能·计算机视觉·语言模型
静心问道1 天前
大语言模型能够理解并可以通过情绪刺激进行增强
人工智能·语言模型·大模型
晓13131 天前
第七章 OpenCV篇——角点检测与特征检测
人工智能·深度学习·计算机视觉