多模态

香芋Yu2 天前
ai·大模型·多模态·大模型应用
【大模型教程——第四部分:大模型应用开发】第4章_多模态大模型原理核心定位:理解文本-图像等多模态交互的核心技术(CLIP、ViT、LLaVA)边界约束:想象你是一个只懂中文的语言模型(LLM)。现在,有人拿着一张图片,用一种你从未见过的语言(“图像语”)向你描述。你该怎么办?
程序员学习Chat3 天前
多模态·多模态大模型
多模态-10 Qwen-VL这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL
袋鼠云数栈4 天前
大数据·人工智能·数据治理·多模态
让多模态数据真正可用,AI 才能走出 Demo在越来越多企业推进 AI 应用落地的过程中,一个共识正在逐渐形成:model-centric 的发展已经达到一定瓶颈,那么现在决定 AI 应用效果的就是数据是否完备了。尤其在真实业务场景中,AI 面对的从来不是“干净、规整的结构化表”,而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录,与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工,AI 就只能停留在 Demo 阶段,难以真正走向规模化应用。
xx_xxxxx_4 天前
论文阅读·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析2-对比模型与底层模型的基本结构参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
一个无名的炼丹师5 天前
python·大模型·ocr·多模态·rag
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用摘要:在构建企业级多模态RAG(检索增强生成)系统时,如何将非结构化的PDF文档高质量地转换为结构化的Markdown数据,是决定系统最终检索效果的“生死门”。本文将深入探讨2025年最前沿的两种解决方案:AI2开源的基于VLM的olmOCR,以及一站式开源工具链MinerU。我们将从理论原理、本地环境搭建、GPU推理加速、API调用实战到进阶的“元素感知”混合解析方案,进行全链路的深度拆解。
feasibility.5 天前
人工智能·python·大模型·nlp·llama·多模态·具身智能
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例克隆https://github.com/QwenLM/Qwen3-VL项目,方便之后研究阿里官方的代码,当然你也可以不克隆项目,毕竟Llama-Factory这个一站式大模型训练与微调平台对大多数个人开发者使用主流模型是简单且够用的。
余俊晖6 天前
人工智能·自然语言处理·多模态
Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在MMMU-benchmark取得了3
程序员学习Chat6 天前
多模态·多模态模型
多模态-8 YOLO World这篇文章介绍多模态模型-YOLO World多模态基础知识介绍可以看:多模态-1 基础理论Grounding DINO介绍可以看:多模态-7 Grounding DINO
山顶夕景7 天前
llm·agent·多模态
【LLM】多模态智能体Kimi-K2.5模型Kimi K2.5 是 Moonshot AI 发布的开源多模态智能体模型,旨在推动通用智能体智能(General Agentic Intelligence)的发展。该模型采用原生多模态架构,通过文本与视觉的联合优化,以及创新的Agent Swarm(智能体集群)框架,在推理、编程、视觉理解和智能体任务上达到了业界领先水平。
阿杰学AI9 天前
人工智能·ai·语言模型·aigc·语音识别·多模态·原生多模态
AI核心知识72——大语言模型之Native Multimodality(简洁且通俗易懂版)原生多模态 (Native Multimodality) 是指大模型从设计和预训练的“第一天”开始,就被构建为能够同时理解和生成多种类型数据(文本、图像、音频、视频)的模型。
羊城迷鹿9 天前
大模型·微调·多模态·qwen·llamafactory·oft
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录本文系统记录了在华为昇腾910B和英伟达4090两种硬件平台上,针对两个不同规模数据集(其中一个为从头构建的签字识别数据集)基于LLamafactory进行Qwen2.5-VL-3B多模态大模型微调的完整实验过程。实验主要探索了LoRA、Full Fine-tuning、Freeze Fine-tuning和OFT四种主流微调方法,并对学习率、训练轮数、LoRA秩、批处理大小、精度类型等数十个超参数进行了系统性对比测试,并在此过程中解决Oft无法正常推理和测试等问题。
孙琦Ray9 天前
开源·软件开发·多模态·rag·知识管理·ai代理·终端桌面
GitHub开源项目月报 · 2026年1月 · 开源AI代理热榜解读本期榜单聚焦开源 AI 代理、开发工作流、知识管理与多模态工具,展现出 provider-agnostic 模型协作与本地部署趋势。超过10000星的项目有 OpenCode、Superpowers、Claude Skills、Claude Code、Remotion、Memos、UI-TARS-desktop、Beads、Awesome Claude Skills、PageIndex,覆盖编码、开发、文档与知识管理等场景。其中每天增长100星以上的项目包括 OpenCode、Superpowers、Cl
AI 菌10 天前
人工智能·大模型·ocr·多模态
DeepSeek-OCR v2 解读DeepSeek-OCR 发布于25年10月,而这次DeepSeek-OCR 2发布仅隔了三个月。这会不会是DeepSeek V4发布前上的前菜呢?让我们一起尝尝鲜吧。
山顶夕景11 天前
大模型·llm·ocr·多模态
【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》,https://arxiv.org/pdf/2601.03714,相关实验数据在https://anonymous.4open.science/r/ACL26-84B5/Readme.md
勇气要爆发12 天前
人工智能·gpt·机器学习·llm·微调·多模态·预训练
【AI扫盲】大模型(LLM)原理详解:从 DeepSeek 到 GPT-5 全面解析 (2026最新版)难度:⭐⭐ 关键词:LLM, 参数, 预训练, 微调, 多模态, DeepSeek大家好,我是飞哥!👋
余俊晖14 天前
人工智能·自然语言处理·多模态
多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(文档智能解析方案总结进展更新(含ocr-pipline、layout+VLM+纯多模态端到端解析)),这是一个端到端的模型,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。
余俊晖14 天前
人工智能·自然语言处理·多模态
强化学习GRPO(格式奖励)在多模态文档解析中的运用方法现有的多模态文档解析模型在对ocr(公式、表格)等进行格式化解码时,解码不是特别稳定,如下图:基于视觉语言模型(VLM)的端到端方法虽简化流程,但在处理公式、表格等格式化文本时,输出熵值(不确定性)远高于纯文本(常相差一个数量级)。
2401_8414956414 天前
大数据·边缘计算·实时计算·多模态·分布式存储·数据价值·大数据技术
大数据技术:从技术革命到产业重构的核心引擎目录一、引言二、大数据的核心定义与特征:解码海量数据的本质三、大数据技术架构:构建全链路数据处理体系(一)数据采集与传输:筑牢数据源头根基
一个无名的炼丹师15 天前
python·pdf·大模型·多模态·rag
DeepSeek+LangGraph构建企业级多模态RAG:从PDF复杂解析到Agentic智能检索全流程实战摘要: 传统的文本RAG(检索增强生成)在面对包含复杂表格、图片和多栏排版的PDF文档时往往力不从心。本文将带你从零开始,基于 Unstructured + PaddleOCR 实现“结构解析重建法”,将复杂的PDF逆向转化为高质量的Markdown文档;并结合 DeepSeek 大模型与 LangGraph 智能体框架,构建一个具备自我修正能力的 Agentic RAG 引擎。本文包含完整的环境配置、核心代码实现及架构原理解析。
Struart_R17 天前
计算机视觉·大语言模型·强化学习·多模态·r1
VideoLLM相关论文(二)补充(一)中的VideoChat-R1和VideoAuto-R1motivation:在RL+MLLM基础上扩展更泛化的任务,比如时序定位,目标跟踪,并通过不同的奖励来强化。