【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

相关推荐
YuhsiHu11 分钟前
【论文简读】DIV-Loss
人工智能·深度学习·计算机视觉·3d
-dzk-12 小时前
【论文精读】3D Gaussian Splatting for Real-Time Radiance Field Rendering
数码相机·opencv·计算机视觉·3d·三维重建·3dgs·高斯
厄罗萌多14 小时前
OpenCV学习 day3
opencv·学习·计算机视觉
沉睡的无敌雄狮15 小时前
无人机光伏巡检漏检率↓78%!陌讯多模态融合算法实战解析
人工智能·算法·计算机视觉·目标跟踪
格林威16 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现各种食物的类型检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
威化饼的一隅16 小时前
【多模态】DPO学习笔记
大模型·llm·强化学习·rlhf·dpo
一碗白开水一16 小时前
【模型细节】FPN经典网络模型 (Feature Pyramid Networks)详解及其变形优化
网络·人工智能·pytorch·深度学习·计算机视觉
木卯_THU17 小时前
TGD第八篇:二维应用——图像边缘检测
计算机视觉·log·边缘检测·边缘检测算法·canny边缘检测·tgd·log边缘检测
_Meilinger_19 小时前
论文研读|基于图像修复的AI生成图像检测(CVPR 2025)
人工智能·深度学习·计算机视觉·ai·aigc·图像取证·生成图像检测
lxmyzzs20 小时前
【打怪升级 - 07】基于 YOLO12 的车辆与人员数量统计系统:从理论到代码实战,零基础实现你的第一个深度学习应用
人工智能·深度学习·yolo·目标检测·计算机视觉