mllm

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读（一）阿里巴巴开源多模态大模型-Qwen-VL系列论文精读（一）论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

详解大模型的位置编码-positional encodingTransformer模型在处理序列数据时，自注意力机制通过计算输入序列中每个元素与其他元素之间的关系来提取信息。然而，它本质上是对输入序列中元素的位置不敏感的。也就是说自注意力机制只关注元素之间的关系，而忽略了元素在序列中的位置顺序。

农夫山泉2号

【mllm】——x64模拟htp的后端无法编译debugmllm, qnn, x64 code:https://github.com/UbiquitousLearning/mllm

开源大模型食用指南 - 微调、部署 LLM、MLLM《开源大模型食用指南》针对中国宝宝量身打造的基于Linux环境快速微调（全参数/Lora）、部署国内外开源大模型（LLM）/多模态大模型（MLLM）教程

CV-MLLM经典论文解读|OneLLM: One Framework to Align All Modalities with LanguageOneLLM: One Framework to Align All Modalities with Language

CV-MLLM经典论文解读| Link-Context Learning for Multimodal LLMs面向多模态大型语言模型的链接上下文学习Link-Context Learning for Multimodal LLMs面向多模态大型语言模型的链接上下文学习

LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 模型推理(Infer) 教程 (1)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142827217

LLM - 使用 XTuner 指令微调多模态大语言模型(InternVL2) 教程欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142528967

LLM - 理解多模态大语言模型 (MLLM) 的预训练与相关技术 (三)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142063880

LLM - 理解多模态大语言模型 (MLLM) 的架构与相关技术 (二)欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142063880

MiniCPM-V: A GPT-4V Level MLLM on Your Phone现有的MLLM通常需要大量的参数和计算资源，限制了其在实际应用中的范围。大部分MLLM需要部署在高性能云服务器上，这种高成本和高能耗的特点，阻碍了其在移动设备、离线和隐私保护场景中的应用。

目标检测多模态大模型实践：貌似是全网唯一Shikra的部署和测试教程，内含各种踩坑以及demo代码原文： Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic 代码： https://github.com/shikras/shikra 模型： https://huggingface.co/shikras/shikra-7b-delta-v1 https://huggingface.co/shikras/shikra7b-delta-v1-0708 第一个是论文用的，第二个会有迭代。