internvl

带电的小王1 个月前
论文阅读·人工智能·语言模型·多模态大模型·internvl
InternVL:论文阅读 -- 多模态大模型(视觉语言模型)更多内容:XiaoJ的知识星球图1. 不同视觉和视觉语言基础模型的比较。(a) 表示传统的视觉基础模型,例如 ResNet 在分类任务上预先训练。
温柔哥`3 个月前
计算机视觉·大模型·vad·internvl·可解释·vml·弱监督
VERA: 基于视觉-语言模型的解释性视频异常检测框架arxiv’24 - 爱荷华大学/ 马普学会智能系统研究所(图宾根)/奥本大学 项目主页 VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models
OpenAppAI6 个月前
论文阅读·internvl
《Mini-internVL》论文阅读:OpenGVLab+清华/南大等开源Mini-InternVL | 1~4B参数,仅用5%参数实现90%性能该论文发表于2024年10月份,截止2024年11月,引用数<10论文描述了一项关于多模态大语言模型(Multimodal Large Language Models, MLLMs)的研究成果。
万里鹏程转瞬至7 个月前
论文阅读·大模型·多模态·internvl
论文阅读:InternVL v1.5| How Far Are We to GPT-4V? 通过开源模型缩小与商业多模式模型的差距论文地址:https://arxiv.org/abs/2404.16821 Demo: https://internvl.opengvlab.com Model:https://huggingface.co/OpenGVLab/InternVL-Chat-V1-5 公开时间:2024年4月29日 InternVL1.5,是一个开源的多模态大型语言模型(MLLM),可以在多模态理解中弥合开源和专有商业模型之间的能力差距。我们介绍了三个简单的改进: (1)强视觉编码器:我们探索了大规模视觉基础模型的持续学习策