多模态

小嗷犬2 天前
论文阅读·人工智能·深度学习·神经网络·多模态
【论文笔记】CLIP-guided Prototype Modulating for Few-shot Action Recognition🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
威化饼的一隅7 天前
深度学习·多模态·视觉语言模型·多模态模型·minicpm·minicpm-v
【多模态】MiniCPM-V多模态大模型使用学习前面学习了一些常见多模态模型的架构,现在开始学习使用minicpm-v-2.6模型,记录学习过程,欢迎批评指正~
小嗷犬10 天前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】VisionZip: Longer is Better but Not Necessary in Vision Language Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
爱睡觉的咋12 天前
人工智能·计算机视觉·大模型·多模态
CLIP论文提炼与代码实战今天和大家分享一篇多模态的经典论文,大名鼎鼎的CLIP:Learning Transferable Visual Models From Natural Language Supervision[pdf]
小嗷犬20 天前
论文阅读·人工智能·大模型·多模态·手语翻译
【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
余俊晖21 天前
人工智能·llm·多模态·rag
【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题 ( I , Q ) (I, Q) (I,Q),并且依赖于可访问的知识库。文章提出的 m R 2 A G mR^2AG mR2AG框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。 m R 2 A G mR^2AG mR2AG将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成
R_Arisa25 天前
图像分割·多模态·语义分割·参考分割
2024 TIP 论文 robust-ref-seg 复现过程本篇是 2024 年 TIP 论文 Toward Robust Referring Image Segmentation 的复现过程。 特点是对不存在的目标不会进行错误分割,鲁棒性较高,其结果如图:
HyperAI超神经25 天前
人工智能·开源·自动驾驶·数据集·多模态·化学光谱·neurips 2024
NeurIPS 2024 有效投稿达 15,671 篇,数据集版块内容丰富NeurIPS,全称 Neural Information Processing Systems Conference,是神经信息处理系统的年度学术会议。该会议始于 1987 年,当时名为 NIPS。随着人工智能领域的快速发展,其影响力逐渐扩大,被越来越多的研究者和企业关注并熟知。为了更好地反映会议涵盖的广泛领域,NIPS 于 2017 年正式更名为 NeurIPS。
大数据AI人工智能培训专家培训讲师叶梓1 个月前
运维·人工智能·语言模型·自然语言处理·自动化·大模型·多模态
ECLAIR:利用基础模型实现企业自动化人工智能咨询培训老师叶梓 转载标明出处尽管流程自动化的概念已经存在了几十年,但实现端到端工作流程自动化的最终愿景仍然难以捉摸。斯坦福大学的研究人员提出了一种新的解决方案——ECLAIR系统,旨在通过最少的人工监督实现企业工作流程的自动化。
小嗷犬1 个月前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】Improved Baselines with Visual Instruction Tuning🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
AI生成未来1 个月前
多模态·多模态大模型·自回归
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow论文链接:https://arxiv.org/pdf/2411.07975 github链接:https://github.com/deepseek-ai/Janus
威化饼的一隅1 个月前
人工智能·深度学习·计算机视觉·大模型·多模态·多模态模型·flamingo
【多模态】Flamingo模型技术学习最近多模态模型特别火,从头开始学习!在前面写的几篇里面学习了MiniCPM-V、ViT、CLIP和BLIP/BLIP-2之后,今天学习一下Flamingo模型,记录学习过程,欢迎批评指正,一起学习~~
小嗷犬1 个月前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
youcans_1 个月前
人工智能·计算机视觉·大模型·大语言模型·多模态
【微软:多模态基础模型】(5)多模态大模型:通过LLM训练欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html)原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微软:多模态基础模型】(4)统一视觉模型 【微软:多模态基础模型】(5)多模态大模型 【微软:多模态基础模型】(6)多模态代理
gz7seven1 个月前
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示:     从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。
Struart_R1 个月前
语言模型·llama·多模态·三维生成·自回归
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读目录一、概述二、相关工作1、LLMs到多模态2、3D对象生成3、自回归的Mesh生成三、LLaMA-Mesh
mslion1 个月前
人工智能·语言模型·自然语言处理·大语言模型·多模态
整理:4篇专注于多模态大语言模型(MLLM)的瘦身变体论文近年来,随着人工智能技术飞速发展,大语言模型(LLM)和多模态大语言模型(MLLM)成为了炙手可热的明星。它们不仅能处理文字,还能看图识字,简直是“全能选手”。这种能力得益于模型中加入的“视觉编码器”和“特征投影仪”,就好比给大脑装上了“眼睛”和“理解工具”。不过,模型越大,就越像个贪吃的怪兽,耗费大量资源,让使用它的人直呼“吃不消”。所以,如何让这些模型既聪明又省钱,成了大家绞尽脑汁的挑战。
youcans_1 个月前
人工智能·计算机视觉·大语言模型·多模态·视觉模型
【微软:多模态基础模型】(4)统一视觉模型欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html)原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微软:多模态基础模型】(4)统一视觉模型 【微软:多模态基础模型】(5)多模态大模型 【微软:多模态基础模型】(6)多模态代理
小嗷犬1 个月前
论文阅读·大模型·机器翻译·多模态·手语翻译
【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
机器白学1 个月前
ocr·transformer·多模态·视觉语言大模型
从零开始使用GOT-OCR2.0——多模态通用型OCR(非常具有潜力的开源OCR项目):项目环境安装配置 + 测试使用在之前精读了这个多模态的OCR项目论文,理解了其基本的模型架构,论文精读地址:【论文精读】GOT-OCR2.0源码论文——打破传统OCR流程的多模态视觉-语言大模型架构:预训练VitDet 视觉模型+ 阿里通义千问Qwen语言模型-CSDN博客