多模态

Struart_R5 小时前
语言模型·llama·多模态·三维生成·自回归
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读目录一、概述二、相关工作1、LLMs到多模态2、3D对象生成3、自回归的Mesh生成三、LLaMA-Mesh
mslion2 天前
人工智能·语言模型·自然语言处理·大语言模型·多模态
整理:4篇专注于多模态大语言模型(MLLM)的瘦身变体论文近年来,随着人工智能技术飞速发展,大语言模型(LLM)和多模态大语言模型(MLLM)成为了炙手可热的明星。它们不仅能处理文字,还能看图识字,简直是“全能选手”。这种能力得益于模型中加入的“视觉编码器”和“特征投影仪”,就好比给大脑装上了“眼睛”和“理解工具”。不过,模型越大,就越像个贪吃的怪兽,耗费大量资源,让使用它的人直呼“吃不消”。所以,如何让这些模型既聪明又省钱,成了大家绞尽脑汁的挑战。
youcans_2 天前
人工智能·计算机视觉·大语言模型·多模态·视觉模型
【微软:多模态基础模型】(4)统一视觉模型欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html)原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微软:多模态基础模型】(4)统一视觉模型 【微软:多模态基础模型】(5)多模态大模型 【微软:多模态基础模型】(6)多模态代理
小嗷犬3 天前
论文阅读·大模型·机器翻译·多模态·手语翻译
【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
机器白学3 天前
ocr·transformer·多模态·视觉语言大模型
从零开始使用GOT-OCR2.0——多模态通用型OCR(非常具有潜力的开源OCR项目):项目环境安装配置 + 测试使用在之前精读了这个多模态的OCR项目论文,理解了其基本的模型架构,论文精读地址:【论文精读】GOT-OCR2.0源码论文——打破传统OCR流程的多模态视觉-语言大模型架构:预训练VitDet 视觉模型+ 阿里通义千问Qwen语言模型-CSDN博客
youcans_3 天前
人工智能·计算机视觉·大语言模型·多模态·视觉生成
【微软:多模态基础模型】(3)视觉生成欢迎关注【youcans的AGI学习笔记】原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微软:多模态基础模型】(4)统一视觉模型
youcans_3 天前
人工智能·计算机视觉·大模型·大语言模型·多模态
【微软:多模态基础模型】(1)从专家到通用助手欢迎关注【youcans的AGI学习笔记】原创作品 【微软:多模态基础模型】(1)从专家到通用助手 【微软:多模态基础模型】(2)视觉理解 【微软:多模态基础模型】(3)视觉生成 【微软:多模态基础模型】(4)统一视觉模型
youcans_6 天前
人工智能·计算机视觉·大语言模型·多模态·视觉理解
【微软报告:多模态基础模型】(2)视觉理解欢迎关注【youcans的AGI学习笔记】原创作品 【微软报告:多模态基础模型】(1)从专家到通用助手 【微软报告:多模态基础模型】(2)视觉理解 【微软报告:多模态基础模型】(3)视觉生成
gz7seven8 天前
大模型·多模态·blip·多模态学习·多模态大模型·图文生成
大模型学习笔记------BLIP模型详解与思考在上两篇文章中讲到了CLIP模型的主要应用与一些思考,本文的BLIP模型对CLIP模型的一个增强版本,能够更好地处理复杂的视觉和语言结合的任务,推动了多模态学习的发展。我认为比较重要的不同主要体现在如下两个方面:
小嗷犬11 天前
论文阅读·人工智能·深度学习·大模型·多模态
【论文笔记】Wings: Learning Multimodal LLMs without Text-only Forgetting🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
知来者逆11 天前
人工智能·gpt·语言模型·自然语言处理·llm·推荐算法·多模态
Gen-RecSys——一个通过生成和大规模语言模型发展起来的推荐系统生成模型的进步对推荐系统的发展产生了重大影响。传统的推荐系统是 “狭隘的专家”,只能捕捉特定领域内的用户偏好和项目特征,而现在生成模型增强了这些系统的功能,据报道,其性能优于传统方法。这些模型为推荐的概念和实施带来了创新方法。
小嗷犬12 天前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
小嗷犬15 天前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】Dense Connector for MLLMs🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
小嗷犬18 天前
论文阅读·人工智能·语言模型·大模型·多模态
【论文笔记】Attention Prompting on Image for Large Vision-Language Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
余俊晖19 天前
多模态·rag
【多模态&RAG】多模态RAG ColPali实践关于【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索前面已经介绍了(供参考),这次来看看ColPali实践。
热情的Dongming21 天前
人工智能·大模型·多模态·医疗大模型
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型随着多模态大模型的发展,其不仅限于文字处理,更能够在图像、视频、音频方面进行识别与理解。医疗领域中,医生们往往需要对各种医学图像进行处理,以辅助诊断和治疗。如果将多模态大模型与图像诊断相结合,那么这会极大地提升诊断效率。
小城哇哇22 天前
人工智能·ai·语言模型·llm·agi·多模态·rag
【AI多模态大模型】基于AI的多模态数据痴呆病因鉴别诊断痴呆症是全球重要的健康挑战,特别是由于不同病因之间症状的重叠,准确诊断非常困难。随着全球老龄化人口的增长,痴呆症诊断的准确性需求变得越来越迫切,这对医疗系统造成了压力。尽管阿尔茨海默病(AD)通常是痴呆研究的主要焦点,但其他形式如血管性痴呆(VD)、路易体痴呆(LBD)和额颞叶痴呆(FTD)也很常见,并且往往与AD共存。误诊可能导致不适当的治疗,从而影响患者的预后。此外,神经科医生和神经心理学家数量的减少使得对可扩展诊断工具的需求更加迫切。波士顿大学医学院Vijaya Kolachalama等通过开发一种
小嗷犬24 天前
论文阅读·大模型·多模态
【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
小嗷犬24 天前
论文阅读·多模态
【论文笔记】Perceiver: General Perception with Iterative Attention🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
大数据AI人工智能培训专家培训讲师叶梓25 天前
人工智能·大模型·微调·多模态·1024程序员节·rag·智能体·检索增强型生成
检索增强型生成模型RichRAG:为多面查询提供丰富回应人工智能咨询培训老师叶梓 转载标明出处大模型在处理静态知识更新和信息准确性方面仍面临挑战。为了解决这些问题,检索增强型生成(RAG)模型应运而生,它们通过检索文档来辅助语言模型生成更可靠的回答。但现有的RAG研究大多集中在具有明确用户意图和简洁回答的问题场景上。在现实世界中,用户常常会提出宽泛、开放式的查询,这些查询包含多个子意图,并期望得到涵盖多个相关方面的丰富、长形式的答案。针对这一尚未充分探索但非常重要的问题。