【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
Microvision维视智造31 分钟前
解析大尺寸液晶屏视觉检测,装配错位如何避免?
人工智能·计算机视觉·视觉检测
ayiya_Oese2 小时前
[预备知识]1. 线性代数基础
深度学习·计算机视觉·cnn
大数据AI人工智能培训专家培训讲师叶梓3 小时前
FramePack:让视频生成更高效、更实用
人工智能·ai·大模型·音视频·视频·视频生成·长视频
AI技术学长6 小时前
2025年高级计算机视觉工程师路线图
人工智能·python·深度学习·机器学习·计算机视觉·数学基础·学习路线图
云逸001~6 小时前
Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer
云原生·kubernetes·大模型·llm·mlops·kubeflow·kserver
深圳信迈科技DSP+ARM+FPGA6 小时前
基于RK3588+FPGA+AI YOLO全国产化的无人船目标检测系统(二)平台设计
人工智能·yolo·目标检测·计算机视觉·fpga开发·信号处理
youcans_7 小时前
【医学影像 AI】早产儿视网膜病变国际分类(第三版)
论文阅读·人工智能·计算机视觉·医学影像·rop
深度学习lover7 小时前
<数据集>小船识别数据集<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·船舶识别
白熊1887 小时前
【计算机视觉】CV实战项目- CMU目标检测与跟踪系统 Object Detection & Tracking for Surveillance Video
人工智能·目标检测·计算机视觉