多模态大语言模型

FesianXu15 天前
多模态大语言模型·视觉大语言模型
视觉大语言模型未能充分利用视觉表征这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征,笔者觉得挺有意思的,就在此笔记,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
SpikeKing8 个月前
人工智能·大语言模型·llama·参数量·qwen2-vl·多模态大语言模型·numel
LLM - 计算 多模态大语言模型 的参数量(Qwen2-VL、Llama-3.1) 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/143749468
SpikeKing8 个月前
人工智能·lora·swift·qwen2-vl·多模态大语言模型·视频微调
LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 视频微调(LoRA) 教程(3)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142882496
Kun Li9 个月前
lmm·多模态大语言模型
swift使用代码结构解析多模态模型的训练llamafactory也可以训练,但是总的来说,llamafactory对多模态模型的支持还是不太多,ms-swift支持的多模态模型更多,因此有时候去找框架是否够支持相应的模型时会有所困难,所以对这些框架的代码也要稍微熟悉一些。
SpikeKing9 个月前
人工智能·语言模型·自然语言处理·finetune·mllm·多模态大语言模型·指令微调
LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142528967
SpikeKing10 个月前
人工智能·语言模型·预训练·mllm·多模态大语言模型·qwen-vl·laion
LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
SpikeKing10 个月前
人工智能·语言模型·clip·mllm·多模态大语言模型·openclip·cogvlm
LLM - 理解 多模态大语言模型 (MLLM) 的架构与相关技术 (二)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
一个处女座的程序猿10 个月前
llm·mlm·多模态大语言模型
MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略目录相关文章AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读