多模态模型

OpenAppAI15 天前
多模态模型
《Baichuan-Omni》论文精读:第1个7B全模态模型 | 能够同时处理文本、图像、视频和音频输入论文介绍了一种新的多模态大型语言模型(Multimodal Large Language Model, MLLM),名为Baichuan-Omni。该模型是开源的,并且是首个能够同时处理图像、视频、音频和文本四种模态信息的70亿参数规模的模型。 文章指出了GPT-4o在多模态能力与交互体验方面的突出表现,但指出目前缺乏一个高性能的开源替代品。因此,本文旨在介绍Baichuan-Omni,以填补这一空白。
OpenAppAI18 天前
多模态模型·qwen2-vl
《Qwen2-VL》论文精读【下】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当《Qwen2-VL》论文精读【上】:发表于2024年10月 Qwen2-VL 迅速崛起 | 性能与GPT-4o和Claude3.5相当 上回详细分析了Qwen2-VL的论文摘要、引言、实验,下面继续精读Qwen2-VL的方法部分。
威化饼的一隅1 个月前
人工智能·计算机视觉·大模型·transformer·vit·多模态模型·视觉编码器
ViT模型技术学习最近多模态模型特别火,模型也越来越小,MiniCPM-2.6只有8B,里面采用的图片编码器是SigLipViT模型,一起从头学习ViT和Transformer!本文记录一下学习过程,所以是自上而下的写,从ViT拆到Transformer。
十有久诚3 个月前
人工智能·深度学习·提示学习·多模态模型
Progressive Multi-modal Conditional Prompt Tuning图像的重复消化有助于提高分类精度。ProMPT不是直接进行预测,而是多次重新访问原始图像以检查答案,逐步将预测从粗糙细化到精确。 希望达到的效果如下: 图7:通过迭代进化,ProMPT逐步将CLIP产生的错误结果纠正为正确的结果。 ✓ \checkmark ✓表示正确和×表示不正确的预测。
页页读8 个月前
多模态模型
【LLAVA】Llava中在数据集制作过程中是怎么从CC3M中过滤出595K数据的?为什么这样做?原文:CC3M. We extract noun-phrases using Spacy for each caption over the whole cc3m dataset, and count the frequency of each unique noun-phrase. We skip noun-phrases whose frequency is smaller than 3, as they are usually rare combinations concept and attrib
页页读8 个月前
人工智能·虚幻·多模态模型
【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题分类内容论文题目RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
FesianXu1 年前
计算机视觉·自然语言处理·多模态模型·视频检索
【论文极速读】视频检索中的模态均衡方法传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题,论文[1]尝试对其进行解决,本文进行笔记。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
hitrjj1 年前
人工智能·计算机视觉·nerf·聚类算法·显著性·多模态模型·天气算法
【AI视野·今日CV 计算机视觉论文速览 第278期】Mon, 30 Oct 2023AI视野·今日CS.CV 计算机视觉论文速览 Mon, 30 Oct 2023 Totally 50 papers 👉上期速览✈更多精彩请移步主页