多模态大模型

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读（一）阿里巴巴开源多模态大模型-Qwen-VL系列论文精读（一）论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

论文精读：Hallucination of Multimodal Large Language Model: A SurveyPaper Link: https://arxiv.org/abs/2404.18930幻觉(Hallucination)指MLLM的输出与视觉输入不一致或生成事实错误的文本内容。

陈敬雷-充电了么-CEO兼CTO

AI Agent：重构智能边界的终极形态——从技术内核到未来图景全景解析注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

【论文阅读】VARGPT-v1.1原文摘要模型定位与基础VARGPT-v1.1是基于前代VARGPT框架的先进统一视觉自回归模型，延续了"双范式"设计：

【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状：VLMs 已展现出强大的多模态理解和推理能力局限：当前主要受限于基于文本的推理过程

Zhijun.li@Studio

【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面，对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台，它集成了多种主流的微调方法（如 LoRA、QLoRA、全量微调等），并通过简洁的 WebUI 和命令行工具，极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例，一步步带您完成从环境搭建到模型评估的全过程。

论文阅读笔记 | Qwen-VL：一个视觉语言大模型，通晓理解、定位、文本阅读等多种能力通义千问-VL论文阅读笔记：arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

【论文阅读】KIMI-VL TECHNICAL REPORT原文摘要核心模型：Kimi-VL模型架构：基于 MoE 设计，仅激活语言解码器的 2.8B 参数（Kimi-VL-A3B），在保持高效计算的同时实现高性能。

【论文阅读】LLaVA-OneVision: Easy Visual Task Transfer原文摘要研究背景与目标开发动机：核心目标：关键创新点多场景统一建模：跨模态迁移学习：研究背景与目标AI发展目标：

手搓多模态-05 transformer编码层前面我们已经实现一个图像嵌入层和顶层的模型调度：这里我们传入一个图像数据集，它会先通过SiglipVisionEmbeddings 把图像编码成嵌入向量，但此时的向量还不是上下文相关的，所以我们加入了一个SiglipEncoder层来做注意力嵌入，嵌入完了之后通过归一化即可返回一个图像的上下文相关的嵌入向量。有关图像嵌入部分和归一化部分之前已经提及了。这里我们着重于实现transformer的注意力层。

通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接： https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能（AGI）研究中的一个关键挑战。为实现这一目标，许多现有方法（例如世界模型）旨在捕捉支配物理世界的基本原理，从而实现更精确的模拟和有意义的交互。然而，当前的方法通常将不同模态（包括2D（图像）、视频、3D和4D表示）视为独立领域，忽略了它们之间的相互依赖性。此外，这些方法通常专注于现实的孤立维度，而没有系统地整合它们之间的联系。在本综述中，我们提出了一种多模态生成模型的统一综述，探讨了现实世界模拟中

带电的小王

InternVL：论文阅读 -- 多模态大模型(视觉语言模型)更多内容：XiaoJ的知识星球图1. 不同视觉和视觉语言基础模型的比较。(a) 表示传统的视觉基础模型，例如 ResNet 在分类任务上预先训练。

翻滚的小@强

LLM2CLIP论文学习笔记：强大的语言模型解锁更丰富的视觉表征今天分享的一篇论文《LLM2CLIP: P OWERFUL L ANGUAGE M ODEL U NLOCKS R ICHER V ISUAL R EPRESENTATION》， 2024年9月微软和同济大学的一篇paper，是多模态领域的一篇工作，主要探索了如何将大模型融合到Clip模型里面来进一步提高视觉表征的性能。在本文中，提出了一种新颖的方法LLM2CLIP，它利用LLMs的力量来解锁CLIP的潜力。通过对LLM在说明文空间内进行对比学习微调，将它的文本能力提取到输出embedding中，大大提

tangjunjun-owen

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM论文解读感觉好久都没有写个一篇论文解读了，刚好此篇论文激发MLLM模型的检测能力。我也想一探究竟，因此我给出此篇论文的解读。我们提出了DetToolChain，这是一种新的提示范式，旨在释放多模态大语言模型（MLLMs），如GPT-4V和Gemini的零样本目标检测能力。我们的方法包含一个受高精度检测先验启发的检测提示工具包，以及一个新的思维链来实现这些提示。具体来说，工具包中的提示被设计用来引导MLLM关注区域信息（例如，放大），按照测量标准读取坐标（例如，叠加尺子和圆规），并从上下文信息中推断（例如，叠加场景

Large-Vision-Language-Models-LVLMs--info：deepseek-vl模型

LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试教程欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/144353087

自回归和Rectified Flow完美融合统一多模态理解和生成！DeepSeek&北大等开源JanusFlow论文链接：https://arxiv.org/pdf/2411.07975 github链接：https://github.com/deepseek-ai/Janus

BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象，具体如下所示：从BLIP-2模型的整个框架爱上看，BLIP-2由这么几个部分组成，图像输入了图像编码器（Image Encoder），得到的结果与文本（Text）在Q-Former（BERT初始化）里进行融合，最后送入LLM模型，进行文本的生成。

LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集教程 (2)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143725947

大模型学习笔记------BLIP模型详解与思考在上两篇文章中讲到了CLIP模型的主要应用与一些思考，本文的BLIP模型对CLIP模型的一个增强版本，能够更好地处理复杂的视觉和语言结合的任务，推动了多模态学习的发展。我认为比较重要的不同主要体现在如下两个方面：