多模态大模型

flying_13146 天前
llm·对比学习·多模态大模型·icl·notellm·micl·late fusion
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)目录一、方法论模板说明视觉笔记表示多模态笔记表示后期融合关键点编辑二、实验2.1 性能评估2.2 增强型MLRM的显著性分数分析
flying_13146 天前
llm·推荐系统·多模态大模型·mllms·mlrms·端到端训练·生成式大模型
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)目录一、训练细节二、端到端MLRM细节三、Qwen-VL-Chat的显著性分数分析传统MLLMs与MLRMs的适配问题
我很哇塞耶13 天前
人工智能·ai·大模型·多模态大模型
AAAI 2026 | 跨视频推理基准 CrossVid:给多模态大模型出一道“综合题”小红书技术团队推出全面评估 MLLMs 跨视频推理能力的基准测试 CrossVid,目前测试代码与数据已完全开源。
阿杰学AI16 天前
人工智能·ai·语言模型·自然语言处理·aigc·多模态·多模态大模型
AI核心知识29——大语言模型之Multimodality(简洁且通俗易懂版)多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。如果说之前的 AI 是一个“虽然博学但又聋又瞎的哲学家”(只能读文字、写文字),那么多模态 AI 就意味着这个哲学家长出了眼睛、耳朵和嘴巴。
七夜zippoe25 天前
多模态大模型·图像理解·推理优化·deepseek-vl2·自动文案生成
实战DeepSeek-VL2:实现图片内容理解与自动文案生成的完整流程目录摘要1 技术原理与架构设计1.1 DeepSeek-VL2模型架构深度解析1.2 视觉-语言对齐机制
m0_650108241 个月前
论文阅读·人工智能·多模态大模型·gemini 2.5·跨模态融合
Gemini 2.5:重塑多模态 AI 边界的全面解读Gemini 2.5 系列模型作为 Google DeepMind 推出的新一代 AI 模型家族,凭借在推理、多模态、长上下文处理及智能体能力上的突破性进展,重新定义了大语言模型的性能基准与应用边界。
数据堂官方账号3 个月前
人工智能·计算机视觉·大模型·数据集·语音识别·语音合成·多模态大模型
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。
陈敬雷-充电了么-CEO兼CTO3 个月前
人工智能·自然语言处理·chatgpt·blip·clip·多模态大模型·gpt-5
突破多模态极限!InstructBLIP携指令微调革新视觉语言模型,X-InstructBLIP实现跨模态推理新高度注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
陈敬雷-充电了么-CEO兼CTO3 个月前
人工智能·gpt·机器学习·机器人·多模态·blip·多模态大模型
BLIP-2革新多模态预训练:QFormer桥接视觉语言,零样本任务性能飙升10.7%!注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
sky丶Mamba3 个月前
ocr·多模态大模型
OCR与多模态大模型:从“看见”文字到“读懂”世界的技术革命摘要:在AI处理图文信息的道路上,OCR(光学字符识别)和多模态大模型代表了两个不同的时代。本文将深入探讨两者的核心区别、精度对比,并分析它们各自的应用场景。最后,我们将揭示一个更强大的趋势:二者如何强强联合,重塑信息处理的未来。
Jeremy_lf4 个月前
大模型·qwen·多模态大模型·mllm
阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
NeoFii5 个月前
人工智能·多模态大模型·模型幻觉
论文精读:Hallucination of Multimodal Large Language Model: A SurveyPaper Link: https://arxiv.org/abs/2404.18930幻觉(Hallucination)指MLLM的输出与视觉输入不一致或生成事实错误的文本内容。
陈敬雷-充电了么-CEO兼CTO5 个月前
人工智能·python·ai·大模型·aigc·agent·多模态大模型
AI Agent:重构智能边界的终极形态——从技术内核到未来图景全景解析注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
s1ckrain5 个月前
论文阅读·多模态大模型·统一生成模型
【论文阅读】VARGPT-v1.1原文摘要模型定位与基础VARGPT-v1.1是基于前代VARGPT框架的先进统一视觉自回归模型,延续了"双范式"设计:
s1ckrain5 个月前
论文阅读·强化学习·多模态大模型·vlm
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning原文摘要研究背景现状:VLMs 已展现出强大的多模态理解和推理能力局限:当前主要受限于基于文本的推理过程
Zhijun.li@Studio6 个月前
人工智能·自然语言处理·llama·多模态大模型
【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程本教程将详细介绍如何使用 LLaMA-Factory 的图形化 WebUI 界面,对强大的开源多模态模型 Qwen2.5-VL-3B-Instruct 进行 LoRA 微调。LLaMA-Factory 是一个功能强大、简单易用的一站式大模型微调平台,它集成了多种主流的微调方法(如 LoRA、QLoRA、全量微调等),并通过简洁的 WebUI 和命令行工具,极大地降低了个人或小型团队进行模型训练的门槛。我们将以经典的宝可梦图文数据集为例,一步步带您完成从环境搭建到模型评估的全过程。
R.X. NLOS6 个月前
论文阅读·笔记·大模型·多模态大模型·qwen-vl
论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力通义千问-VL论文阅读笔记:arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
s1ckrain7 个月前
论文阅读·多模态大模型·vlm
【论文阅读】KIMI-VL TECHNICAL REPORT原文摘要核心模型:Kimi-VL模型架构:基于 MoE 设计,仅激活语言解码器的 2.8B 参数(Kimi-VL-A3B),在保持高效计算的同时实现高性能。
s1ckrain7 个月前
论文阅读·计算机视觉·多模态大模型
【论文阅读】LLaVA-OneVision: Easy Visual Task Transfer原文摘要研究背景与目标开发动机:核心目标:关键创新点多场景统一建模:跨模态迁移学习:研究背景与目标AI发展目标:
HNU混子8 个月前
人工智能·深度学习·transformer·编码器·激活函数·多模态大模型
手搓多模态-05 transformer编码层前面我们已经实现一个图像嵌入层和顶层的模型调度:这里我们传入一个图像数据集,它会先通过SiglipVisionEmbeddings 把图像编码成嵌入向量,但此时的向量还不是上下文相关的,所以我们加入了一个SiglipEncoder层来做注意力嵌入,嵌入完了之后通过归一化即可返回一个图像的上下文相关的嵌入向量。有关图像嵌入部分和归一化部分之前已经提及了。这里我们着重于实现transformer的注意力层。