多模态大模型

SpikeKing13 天前
人工智能·开源·大模型·多模态大模型·评估·雷达图·vlmevalkit
LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试 教程欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/144353087
AI生成未来1 个月前
多模态·多模态大模型·自回归
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow论文链接:https://arxiv.org/pdf/2411.07975 github链接:https://github.com/deepseek-ai/Janus
gz7seven1 个月前
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示:     从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。
SpikeKing1 个月前
人工智能·lora·llm·sft·多模态大模型·llama-factory·qwen2-vl
LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集 教程 (2)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/143725947
gz7seven1 个月前
大模型·多模态·blip·多模态学习·多模态大模型·图文生成
大模型学习笔记------BLIP模型详解与思考在上两篇文章中讲到了CLIP模型的主要应用与一些思考,本文的BLIP模型对CLIP模型的一个增强版本,能够更好地处理复杂的视觉和语言结合的任务,推动了多模态学习的发展。我认为比较重要的不同主要体现在如下两个方面:
AI_小站2 个月前
人工智能·程序人生·语言模型·大模型·llm·产品经理·多模态大模型
多模态大模型微调实践!PAI+LLaMA Factory搭建AI导游一、引言AI的快速发展推动了各行各业的智能化转型和创新,随之而来的是对AI应用的迫切需求。如何微调大模型、高效搭建AI应用成为了开发者们广泛关注的技术方向。阿里云人工智能平台PAI,联合开源低代码大模型微调框架LLaMA Factory ,共同打造多模态大模型微调训练最佳实践,通过微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人,带您开启AI创新与应用之旅,点击阅读原文可马上体验~
v_JULY_v2 个月前
多模态大模型·gemma·vlm·paligemma·siglip
多模态PaliGemma——Google推出的基于SigLIP和Gemma的视觉语言模型本文怎么来的呢?其实很简单,源于上一篇文章《π0——用于通用机器人控制的流匹配VLA模型:一套框架控制7种机械臂(改造了PaliGemma和ACT的3B模型)》中的π0用到了PaliGemma
OpenAppAI2 个月前
多模态大模型·qwen2-vl
《Qwen2-VL》论文精读【上】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当1、论文地址Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution 2、Qwen2-VL的Github仓库地址
OpenGVLab2 个月前
人工智能·深度学习·多模态大模型
基于华为昇腾910B,实战InternVL2-8B模型推理基于华为昇腾910B,实战InternVL2-8B模型推理本文将带领大家基于启智平台,使用 LMDeploy 推理框架在华为昇腾 910B 上实现 InternVL2-8B 模型的推理。
OpenGVLab2 个月前
人工智能·深度学习·rag·多模态大模型
使用InternVL、LMDeploy和GTE搭建多模态RAG系统如何将视觉大模型(VLM)与 多模态RAG 结合起来,创建服装搜索和搭配推荐!本文展示了InternVL模型在分析服装图像和提取颜色、款式和类型等关键特征方面的强大功能。
SpikeKing2 个月前
人工智能·swift·modelscope·多模态大模型·推理·mllm·微调框架
LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 模型推理(Infer) 教程 (1)欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142827217
Langchain3 个月前
人工智能·自然语言处理·langchain·大模型·llm·大语言模型·多模态大模型
不可错过!CMU最新《生成式人工智能大模型》课程:从文本、图像到多模态大模型从生成图像和文本到生成音乐和艺术,生成模型一直是人工智能的关键挑战之一。本课程将探讨推动生成模型和基础模型(Foundation Models)最近进展的机器学习和人工智能技术。学生将学习、开发并应用最先进的算法,使机器能够生成逼真且富有创意的内容。核心主题包括:学习的基本机制;如何构建生成模型及其他大型基础模型(例如,视觉和语言的 Transformer,扩散模型);如何训练这些模型(预训练,微调)并有效地调整它们(适配器、上下文学习);如何扩展到大规模数据集(多 GPU/分布式优化);如何将现有模型用
FesianXu3 个月前
多模态大模型·多模态表征·多模态落地·多模态检索
Alignment与Correspondence,用于量化衡量MLLM中视觉特征的视觉语义对齐与视觉结构程度的方法在多模态大模型(Multimodal Large Language Model, MLLM)中,视觉特征就像是人的眼睛,而底座的LLM则像是人的大脑,合适的视觉特征的选择通常都是一个MLLM成功的重要一步。本文介绍一种可以用于高效选择合适的视觉特征的方法,如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
我爱学Python!3 个月前
人工智能·ai·自然语言处理·大模型·ai大模型·rag·多模态大模型
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验2.快速开始环节要求CPU >= 4 核RAM >= 16 GBDisk >= 50 GBDocker >= 24.0.0 & Docker Compose >= v2.26.1
AI_小站4 个月前
人工智能·语言模型·自然语言处理·llm·transformer·大语言模型·多模态大模型
大语言模型(LLM)如何更好地继续预训练(Continue PreTraining)预训练(Pretraining)是一个非常消耗资源的工作,尤其在 LLM 时代。随着LLama2的开源,越来越多人都开始尝试在这个强大的英文基座模型上进行中文增强。但,我们如何才能保证模型在既学到「中文知识」的情况下,又不丢掉原有的「英文知识」
AI_小站4 个月前
人工智能·语言模型·大语言模型·embedding·ai大模型·多模态大模型·大模型应用
大白话说什么是“MLLM”多模态大语言模型如果上传了一张图片,并向大模型提问。“图片中绿色框框中的人是谁?”大模型回答:“那是波多野吉衣老师”请问,大模型是怎么做到的?
AI大模型_学习君4 个月前
人工智能·自然语言处理·ai大模型·计算机技术·多模态大模型·大模型应用·大模型入门
一文探秘LLM应用开发(12)-模型部署与推理(大模型相关参数计算及性能分析)本文旨在让无大模型开发背景的工程师或者技术爱好者无痛理解大语言模型应用开发的理论和主流工具,因此会先从与LLM应用开发相关的基础概念谈起,并不刻意追求极致的严谨和完备,而是从直觉和本质入手,结合笔者调研整理及消化理解,帮助大家能够更容易的理解LLM技术全貌,大家可以基于本文衍生展开,结合自己感兴趣的领域深入研究。若有不准确或者错误的地方也希望大家能够留言指正。
知世不是芝士4 个月前
深度学习·langchain·自动化·大语言模型·agent·多模态大模型·大模型架构
自主智能体的未来:LangChain Agents如何实现复杂任务自动化在AI领域,智能体(Agents)指的是能够自主感知环境并采取行动以实现特定目标的系统。ReAct(Reasoning and Acting)范式是理解智能体的基础,它强调智能体在执行任务时的推理和行动能力。智能体通过持续地感知环境、推理和采取行动,不断优化其行为,以实现预定目标。
同屿Firmirin4 个月前
目标检测·计算机视觉·aigc·多模态大模型·shikra·mllm·grounding
目标检测多模态大模型实践:貌似是全网唯一Shikra的部署和测试教程,内含各种踩坑以及demo代码原文: Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic 代码: https://github.com/shikras/shikra 模型: https://huggingface.co/shikras/shikra-7b-delta-v1 https://huggingface.co/shikras/shikra7b-delta-v1-0708 第一个是论文用的,第二个会有迭代。
爱喝白开水a4 个月前
人工智能·深度学习·机器学习·langchain·ai大模型·计算机技术·多模态大模型
为什么最近多模态大模型工作中用Q-Former结构的变少了?最近的工作 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models 比较深入地分析了 Q-former 结构的问题。