多模态大语言模型

m0_650108245 天前
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
PaLM-E:具身智能的多模态语言模型新范式在机器人与具身智能领域,如何让模型实现真实世界的精准感知与决策,一直是科研界的核心挑战。谷歌团队推出的 PaLM-E,首次将大规模语言模型(LLM)与多模态感知能力深度融合,构建出首个通用型具身多模态语言模型,既能完成机器人规划、故障检测等具身任务,又保持了顶尖的视觉 - 语言理解与纯语言能力。
LLM炼丹炉17 天前
多模态·视频理解·多模态大语言模型·李飞飞·空间超感知·谢赛宁·cambrian-s
谢赛宁×李飞飞×LeCun联手重磅|Cambrian-S:「视频空间超感知」新范式,实现真正持续视频感知关键词:空间超感知(Spatial Supersensing)、视频理解(Video Understanding)、预测性感知(Predictive Sensing)、基准评测(Benchmarking)、多模态大语言模型(MLLMs)、世界建模(World Modeling)
K24B;2 个月前
android·人工智能·语言模型·分割·多模态大语言模型
多模态大语言模型LISA++LISA模型的缺点:LISA++对LISA的改进:本文贡献:架构不变,数据驱动: 这是最关键的一点。LISA++没有改动LISA的模型架构,而是通过重构指令调优数据来实现升级,表明对于大语言模型驱动的多模态模型而言,高质量、精心设计的训练数据(指令数据)是激发和塑造模型能力的关键。
K24B;2 个月前
人工智能·语言模型·语音识别·分割·多模态大语言模型
多模态大语言模型OISA目前存在的问题:本文贡献:其中Expression包含4种不同的模式(文字、声音、语音、图片),8种不同的组合形式(纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片)
K24B;2 个月前
人工智能·语言模型·分割·多模态大语言模型
多模态大语言模型LISA提出当前系统不能够很好的理解用户的真正意图,目前在执行视觉识别任务还是依赖明确的人类指令和预先定义的类别来识别物体 本文贡献:
FesianXu5 个月前
多模态大语言模型·视觉大语言模型
视觉大语言模型未能充分利用视觉表征这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征,笔者觉得挺有意思的,就在此笔记,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
SpikeKing1 年前
人工智能·大语言模型·llama·参数量·qwen2-vl·多模态大语言模型·numel
LLM - 计算 多模态大语言模型 的参数量(Qwen2-VL、Llama-3.1) 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/143749468
SpikeKing1 年前
人工智能·lora·swift·qwen2-vl·多模态大语言模型·视频微调
LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 视频微调(LoRA) 教程(3)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142882496
Kun Li1 年前
lmm·多模态大语言模型
swift使用代码结构解析多模态模型的训练llamafactory也可以训练,但是总的来说,llamafactory对多模态模型的支持还是不太多,ms-swift支持的多模态模型更多,因此有时候去找框架是否够支持相应的模型时会有所困难,所以对这些框架的代码也要稍微熟悉一些。
SpikeKing1 年前
人工智能·语言模型·自然语言处理·finetune·mllm·多模态大语言模型·指令微调
LLM - 使用 XTuner 指令微调 多模态大语言模型(InternVL2) 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142528967
SpikeKing1 年前
人工智能·语言模型·预训练·mllm·多模态大语言模型·qwen-vl·laion
LLM - 理解 多模态大语言模型 (MLLM) 的预训练与相关技术 (三)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
SpikeKing1 年前
人工智能·语言模型·clip·mllm·多模态大语言模型·openclip·cogvlm
LLM - 理解 多模态大语言模型 (MLLM) 的架构与相关技术 (二)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142063880
一个处女座的程序猿1 年前
llm·mlm·多模态大语言模型
MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略目录相关文章AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读
我是有底线的