多模态

余俊晖1 天前
多模态
多模态大模型轻量化探索-开源SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling在《多模态大模型轻量化探索-视觉大模型SAM的视觉编码器》介绍到,缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。再来看一个整体的工作,从视觉侧和语言模型侧综合考量模型参数量的平衡模式,进一步降低参数量,甚至最小达256M参数量,推理时显存占用<1GB。下面来看看,仅供参考。
hongjianMa1 天前
论文阅读·python·深度学习·卷积神经网络·推荐系统·推荐算法·多模态
【论文阅读】Joint Deep Modeling of Users and Items Using Reviews for Recommendation题目翻译:利用评论对用户和项目进行联合深度建模进行推荐原文地址:点这里关键词: DeepCoNN、推荐系统、卷积神经网络、评论建模、协同建模、评分预测、联合建模
kaaokou3 天前
论文阅读·大模型·llm·ocr·多模态·vl
论文笔记——QWen2.5 VL视觉理解和自然语言处理的集成一直是人工智能研究的一个重要焦点,促成了日益复杂的视觉语言模型 (VLMs) 的发展。由阿里巴巴集团 Qwen 团队开发的 Qwen2.5-VL 代表了该领域的重大进步,尤其侧重于增强精细感知能力。
学渣676564 天前
搜索引擎·计算机视觉·百度·多模态
多模态人工智能研究:视觉语言模型的过去、现在与未来1. 引言:定义多模态图景多模态人工智能指的是旨在处理和整合来自多种数据类型或“模态”信息的人工智能系统,这些模态包括文本、图像、音频和视频等。与通常侧重于单一模态(例如,用于文本的自然语言处理或用于图像的计算机视觉)的传统人工智能不同,多模态人工智能旨在通过结合这些不同的数据形式来理解和生成见解1。这种方法模仿了人类的认知方式,我们自然地整合来自各种感官的输入,以形成对世界的连贯理解1。多模态人工智能的重要性在于其有潜力创建更准确、更细致和更像人类的人工智能系统,这些系统能够理解复杂的现实世界场景1。多
L-含光承影9 天前
论文阅读·计算机视觉·多模态
【第三十三周】BLIP论文阅读笔记本博客介绍了BLIP(Bootstrapping Language-Image Pre-training),这是一种创新的视觉-语言预训练框架,旨在通过统一模型架构和高效数据增强策略,同时解决现有视觉-语言模型在理解与生成任务上的割裂性以及网络数据噪声对性能的制约。其核心思想包含两方面:模型层面提出多模态混合编码器-解码器(MED),通过共享参数支持三种模式——单模态编码器(对齐全局特征)、跨模态编码器(细粒度匹配)和跨模态解码器(生成描述),联合优化图像-文本对比(ITC)、匹配(ITM)和语言建模(L
X.Cristiano11 天前
多模态·qwen2.5-vl
多模态大模型 Qwen2.5-VL 的学习之旅Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。
张申傲11 天前
人工智能·chatgpt·aigc·多模态
多模态(3):实战 GPT-4o 视频理解最近,OpenAI 团队的 GPT-4o 模型,在多模态方面的能力有了大幅提升,这次我们就使用 GPT-4o 完成一个视频理解的实战。
猫先生Mr.Mao11 天前
人工智能·aigc·大语言模型·agi·多模态·行业洞察
2025年3月AGI技术月评|技术突破重构数字世界底层逻辑〔更多精彩AI内容,尽在 「魔方AI空间」 ,引领AIGC科技时代〕本文作者:猫先生——当「无限照片」遇上「可控试穿」,我们正在见证怎样的智能革命?
Panesle15 天前
人工智能·语言模型·自然语言处理·多模态
用一个大型语言模型(LLM)实现视觉与语言的融合: Liquid_V1_7BLiquid 是一种创新的自回归生成范式,其核心优势在于能够无缝整合视觉理解与内容生成。该模型通过将图像转化为离散代码,并在统一的特征空间内同时学习这些代码嵌入和文本标记,从而实现了视觉与语言的深度融合。与传统多模态大型语言模型(MLLM)不同,Liquid 仅依赖单一的大型语言模型(LLM),完全摒弃了对外部预训练视觉嵌入(例如 CLIP)的依赖。
安替-AnTi15 天前
pdf·ocr·多模态·qwen 2.5·图片转文本
Google Colab测试部署Qwen大模型,实现PDF转MD场景OCR 识别(支持单机环境)在使用大模型处理书籍 PDF 时,有时你会遇到扫描版 PDF,也就是说每一页其实是图像形式。这时,大模型需要先从图片中提取文本,而这就需要借助 OCR(光学字符识别)技术。
余俊晖15 天前
多模态·rag
再看开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG前期几个工作提到,基于OCR的文档解析+RAG的方式进行知识库问答,受限文档结构复杂多样,各个环节的解析泛化能力较差,无法完美的对文档进行解析。因此出现了一些基于多模态大模型的RAG方案。如下:
小研学术17 天前
人工智能·ai·文生图·多模态·deepseek·ai生图
AI文生图工具推荐一、AI文生图技术实现原理 AI文生图(Text-to-Image)基于生成对抗网络(GAN)或扩散模型(Diffusion Model)实现,通过深度学习将文本描述转化为图像。其核心流程包括:
Jeremy_lf24 天前
人工智能·文生图·transformer·多模态·扩散模型
【图像生成之21】融合了Transformer与Diffusion,Meta新作Transfusion实现图像与语言大一统论文:Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
仙人掌_lz25 天前
开发语言·人工智能·python·ai·transformer·多模态
使用Python从零实现一个端到端多模态 Transformer大模型嘿,各位!今天咱们要来一场超级酷炫的多模态 Transformer 冒险之旅!想象一下,让一个模型既能看懂图片,又能理解文字,然后还能生成有趣的回答。听起来是不是很像超级英雄的超能力?别急,咱们这就来实现它!
余俊晖1 个月前
人工智能·大模型·多模态·qwen
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。系列模型的应用场景:
背水1 个月前
人工智能·学习·多模态·tts
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback论文学习借助人类反馈增强零样本文本到语音合成In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. Howe
Nicolas8931 个月前
语言模型·大模型·多模态·视觉理解·cogvlm·visionllm·视觉语言预训练模型
【大模型理论篇】CogVLM:多模态预训练语言模型前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。
猫先生Mr.Mao2 个月前
人工智能·大模型·aigc·agi·多模态·行业洞察
2025年2月AGI技术月评|重构创作边界:从视频生成革命到多模态生态的全面爆发〔更多精彩AI内容,尽在 「魔方AI空间」 ,引领AIGC科技时代〕本文作者:猫先生2025年2月,AIGC开源领域迎来多维度突破:视频生成模型进一步降低创作门槛,多模态框架向通用性迈进,艺术创作工具向轻量化与高保真演化,而模型量化技术则让消费级设备成为可能。开源社区通过算法创新、数据策略优化和工程化实践,持续推动技术从实验室走向规模化应用。
youcans_2 个月前
人工智能·大语言模型·多模态·技术报告·gemma
【技术报告】谷歌开源多模态大模型 Gemma-32025年 3月12日,谷歌推出最新多模态大模型 Gemma-3。这是一组轻量级、最先进的开源模型,是迄今为止最先进、便携且负责任开发的开源模型,可以直接在手机、PC、工作站上快速运行。
AI生成未来2 个月前
多模态·图像生成·综述·多模态大模型·视频生成
通向AGI的未来之路!首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)文章链接: https://arxiv.org/pdf/2503.04641理解并复现现实世界是人工通用智能(AGI)研究中的一个关键挑战。为实现这一目标,许多现有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,从而实现更精确的模拟和有意义的交互。然而,当前的方法通常将不同模态(包括2D(图像)、视频、3D和4D表示)视为独立领域,忽略了它们之间的相互依赖性。此外,这些方法通常专注于现实的孤立维度,而没有系统地整合它们之间的联系。在本综述中,我们提出了一种多模态生成模型的统一综述,探讨了现实世界模拟中