技术栈
多模态大语言模型
FesianXu
15 天前
多模态大语言模型
·
视觉大语言模型
视觉大语言模型未能充分利用视觉表征
这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征,笔者觉得挺有意思的,就在此笔记,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
SpikeKing
8 个月前
人工智能
·
大语言模型
·
llama
·
参数量
·
qwen2-vl
·
多模态大语言模型
·
numel
LLM - 计算 多模态大语言模型 的参数量(Qwen2-VL、Llama-3.1) 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/143749468
SpikeKing
8 个月前
人工智能
·
lora
·
swift
·
qwen2-vl
·
多模态大语言模型
·
视频微调
LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 视频微调(LoRA) 教程(3)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142882496
Kun Li
9 个月前
lmm
·
多模态大语言模型
swift使用代码结构解析
多模态模型的训练llamafactory也可以训练,但是总的来说,llamafactory对多模态模型的支持还是不太多,ms-swift支持的多模态模型更多,因此有时候去找框架是否够支持相应的模型时会有所困难,所以对这些框架的代码也要稍微熟悉一些。
SpikeKing
9 个月前
人工智能
·
语言模型
·
自然语言处理
·
finetune
·
mllm
·
多模态大语言模型
·
指令微调
LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142528967
SpikeKing
10 个月前
人工智能
·
语言模型
·
预训练
·
mllm
·
多模态大语言模型
·
qwen-vl
·
laion
LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
SpikeKing
10 个月前
人工智能
·
语言模型
·
clip
·
mllm
·
多模态大语言模型
·
openclip
·
cogvlm
LLM - 理解 多模态大语言模型 (MLLM) 的架构与相关技术 (二)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
一个处女座的程序猿
10 个月前
llm
·
mlm
·
多模态大语言模型
MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略
MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略目录相关文章AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读