多模态

山顶夕景8 天前
大模型·llm·多模态·vlm
【VLM】Qwen3-VL模型架构和训练流程链接:https://arxiv.org/pdf/2511.21631模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。
雪碧聊技术9 天前
aigc·多模态·2b·2c
AIGC简介目录一.AIGC是什么1.定义①官方②大白话2.从技术上划分①内容孪生②内容编辑③内容生成3.从生成内容上划分
山顶夕景11 天前
大模型·llm·多模态·infra
【MLLM】Qwen3.5模型✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max; ✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL; ✦ 覆盖 201 种语言; ✦ 在代码生成、智能体推理与多模态理解方面表现卓越;
Together_CZ12 天前
llm·语音识别·多模态·自然语言·asr·技术报告·index-asr
Index-ASR Technical Report——Index-ASR 技术报告这篇文章介绍了 Index-ASR,一个由哔哩哔哩团队开发的大规模、基于大语言模型(LLM)的自动语音识别(ASR)系统。其主要研究内容可概括为以下几点:
小宋加油啊12 天前
学习·多模态
多模态方法学习在当今数字化高速发展的时代,多模态技术正逐渐成为人工智能领域的核心研究方向。通过整合不同类型的数据源——包括文字、图像、音频、视频及传感器信号,多模态技术正在重塑我们与机器交互、处理信息的方式,为各行各业带来前所未有的创新可能。 多模态技术的基本概念多模态技术指的是同时处理和理解多种不同形式数据输入的系统。与传统单一模态技术相比,多模态系统能够更全面地捕捉和解析信息,就像人类感知世界时会同时…
乌萨奇53712 天前
人工智能·深度学习·考研·计算机视觉·nlp·多模态
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)目录前言:复试中的“降维打击”第一部分:打破CNN统治——Vision Transformer (ViT)
山顶夕景14 天前
llm·多模态·图生文
【MLLM】科学领域Innovator-VL多模态模型【科学领域多模态大模型进展】之前讲过interns1多模态模型,这个系列继续看一个新的模型Innovator-VL: A Multimodal Large Language Model for Scientific Discovery,https://arxiv.org/pdf/2601.19325,Homepage: https://InnovatorLM.github.io/Innovator-VL,Github: https://InnovatorLM/Innovator-VL,Instruct M
s1ckrain14 天前
论文阅读·多模态·具身智能
【论文阅读】Towards Learning a Generalist Model for Embodied Navigation摘要研究痛点:解决方案:训练优势:实验成果:核心问题与动机AGI目标: 创造能像人一样在物理世界中互动和学习的智能体。
feasibility.15 天前
人工智能·docker·多模态·教育电商·dify·rag·智能体/工作流
基于Qwen3-VL多模态嵌入/重排序模型+Dify(docker)工作流的电商图文检索系统打开终端,选择一个目录,执行git clone https://github.com/langgenius/dify.git克隆dify项目
MoyiTech17 天前
深度学习·大模型·多模态·kimi·k2.5
③模型架构-Kimi K2.5 技术报告解读模型主要包含三个部分:MoonViT-3D、MLP投影器、Kimi-K2。没错,刚发现Kimi-K2其实是单模态的,这里面使用的是Kimi-K2的模型架构而非其训练参数。
小马过河R18 天前
人工智能·语言模型·aigc·多模态·ai视频·智能体·视频大模型
Seedance 2.0 模型原理与案例体验记得去年10月Sora2爆火,小马还写过体验文章《国庆爆火的Sora2使用初探和实例生成》,时隔数月,号称国内的Sora2大模型Seedance 2.0再次火了一把。小马自然要去试一下了。
uncle_ll20 天前
milvus·多模态·向量数据库·ann·rag·搜索·检索
Milvus介绍及多模态检索实践:从部署到实战全解析在AI技术高速迭代的今天,多模态数据(文本、图像、音频、视频)爆发式增长,如何高效存储、检索这些非结构化数据,成为解锁AI应用落地的关键。向量数据库作为非结构化数据检索的核心载体,其中Milvus凭借生产级的稳定性、高扩展性,成为大规模向量检索场景的首选工具。
山顶夕景20 天前
大模型·aigc·多模态
【MLLM】nano-banana绘图相关prompt示例: 帮我生成一个8页的连环画,给5岁半的小朋友讲故事用,用中英文标出简短对话,主角是疯狂动物城的两个主角是兔子朱迪・霍普斯 (Judy Hopps) 和狐狸尼克・王尔德 (Nick Wilde)的故事,需要多角度展现主角,保持主角的一致性
香芋Yu22 天前
ai·大模型·多模态·大模型应用
【大模型教程——第四部分:大模型应用开发】第4章_多模态大模型原理核心定位:理解文本-图像等多模态交互的核心技术(CLIP、ViT、LLaVA)边界约束:想象你是一个只懂中文的语言模型(LLM)。现在,有人拿着一张图片,用一种你从未见过的语言(“图像语”)向你描述。你该怎么办?
程序员学习Chat23 天前
多模态·多模态大模型
多模态-10 Qwen-VL这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL
袋鼠云数栈24 天前
大数据·人工智能·数据治理·多模态
让多模态数据真正可用,AI 才能走出 Demo在越来越多企业推进 AI 应用落地的过程中,一个共识正在逐渐形成:model-centric 的发展已经达到一定瓶颈,那么现在决定 AI 应用效果的就是数据是否完备了。尤其在真实业务场景中,AI 面对的从来不是“干净、规整的结构化表”,而是大量分散、异构、跨介质的多模态数据——合同、图片、音视频、扫描件、日志、文本记录,与少量结构化指标交织共存。如果这些数据无法被系统性管理和加工,AI 就只能停留在 Demo 阶段,难以真正走向规模化应用。
xx_xxxxx_24 天前
论文阅读·多模态
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析2-对比模型与底层模型的基本结构参考文:Cao B, Xia Y, Ding Y, et al. Predictive Dynamic Fusion[J]. arXiv preprint arXiv:2406.04802, 2024.[2406.04802] Predictive Dynamic Fusion
一个无名的炼丹师25 天前
python·大模型·ocr·多模态·rag
多模态RAG系统进阶:从零掌握olmOCR与MinerU的部署与应用摘要:在构建企业级多模态RAG(检索增强生成)系统时,如何将非结构化的PDF文档高质量地转换为结构化的Markdown数据,是决定系统最终检索效果的“生死门”。本文将深入探讨2025年最前沿的两种解决方案:AI2开源的基于VLM的olmOCR,以及一站式开源工具链MinerU。我们将从理论原理、本地环境搭建、GPU推理加速、API调用实战到进阶的“元素感知”混合解析方案,进行全链路的深度拆解。
feasibility.25 天前
人工智能·python·大模型·nlp·llama·多模态·具身智能
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例克隆https://github.com/QwenLM/Qwen3-VL项目,方便之后研究阿里官方的代码,当然你也可以不克隆项目,毕竟Llama-Factory这个一站式大模型训练与微调平台对大多数个人开发者使用主流模型是简单且够用的。
余俊晖1 个月前
人工智能·自然语言处理·多模态
Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在MMMU-benchmark取得了3