【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
栗克1 小时前
halcon 透视矩阵
计算机视觉·halcon
CM莫问6 小时前
<论文>(微软)WINA:用于加速大语言模型推理的权重感知神经元激活
人工智能·算法·语言模型·自然语言处理·大模型·推理加速
就是有点傻10 小时前
VM图像处理之图像二值化
图像处理·人工智能·计算机视觉
Blossom.11814 小时前
量子通信:从科幻走向现实的未来通信技术
人工智能·深度学习·目标检测·机器学习·计算机视觉·语音识别·量子计算
大模型铲屎官15 小时前
【深度学习-Day 23】框架实战:模型训练与评估核心环节详解 (MNIST实战)
人工智能·pytorch·python·深度学习·大模型·llm·mnist
bj328117 小时前
机器学习实验八--基于pca的人脸识别
人工智能·机器学习·计算机视觉
清醒的兰17 小时前
OpenCV 图像像素的逻辑操作
人工智能·opencv·计算机视觉
刘维克17 小时前
(预发布)[阿维笔记]分析优化CloudStudio高性能工作空间的GPU训练速度和效果
深度学习·计算机视觉
CoovallyAIHub19 小时前
AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
深度学习·算法·计算机视觉
一 铭21 小时前
Github Copilot新特性:Copilot Spaces-成为某个主题的专家
人工智能·大模型·llm