HF Papers 直播｜多模态专场

由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 等联合发起的【AI Insight Talk】系列直播活动第四场 - 多模态专场就在明天！

各家多模态大模型在近期纷纷开源，在开源社区引发了热烈讨论。这些模型不仅在参数规模、训练范式和应用场景上各具特色，更在开源社区的催化下形成了"百家争鸣"的生态格局。开发者们得以在代码级层面解构其架构设计，从 Transformer 变体到跨模态对齐机制，从指令微调策略到领域知识注入方法，为创新与实践提供了新的启发与可能。

本次我们邀请到了多位多模态模型背后的核心研发者，共同带来一场深度技术分享，系统解析模型设计思路与实践经验；同时还将举办圆桌对谈，汇聚多位顶尖开发者同台交流，碰撞思想火花！

📅 直播时间：2025 年 8 月 21 日（周四）20:00 - 22:00（北京时间）

直播观看地址：hf.link/o6cwf

嘉宾阵容 & 分享议题

Intern-S1：科学多模态大模型

陈恺：上海人工智能实验室大模型中心负责人

简要概述 在科学发现过程中，传统的单一模态分析往往难以全面捕捉复杂现象，尤其是在跨学科领域的深度探索中更加显著。Intern-S1 融合了书生大模型家族的优势，在同一模型内实现了语言和多模态性能的高水平均衡发展，并富集多学科专业知识，重点强化了科学能力，为首个融合专业科学能力的开源通用模型，其综合性能为当前开源多模态大模型中最优，并连续多日登顶 Hugging Face 多模态 Trending 全球第一。本次分享将系统解读 Intern-S1 的核心技术架构与关键创新。

Hugging Face：huggingface.co/InternLM

MiniCPM-V：迈向高效端侧多模态大模型

姚远：面壁智能 MiniCPM-V、MiniCPM-o 技术负责人

简要概述 MiniCPM-V 和 MiniCPM-o 系列致力于实现"轻量级、高性能"的高效端侧多模态大模型。通过模型结构、训练方法、数据构造等方面的创新技术，最新的 MiniCPM-V 4.0 以 4B 参数量，实现了持平 GPT-4.1-mini 的视觉语言理解性能，并支持在手机设备上的低延迟流畅运行；MiniCPM-o 在视频、语音、文本的全模态实时流式交互方面，实现了持平 GPT-4o-202405 的能力水平。本次分享将介绍 MiniCPM-V 和 MiniCPM-o 的相关技术探索，以及开源部署工具。

Hugging Face：huggingface.co/openbmb

GLM-V：迈向通用推理的多模态大模型

余文梦：智谱 GLM-V 团队研究员

简要概述 面向通用多模态理解与推理，GLM-4.1V-9B-Thinking 与 GLM-4.5V 展开了重要探索，提出基于课程采样的强化学习方法（RLCS），在 STEM 推理、GUI Agents、Grounding、视频理解、代码生成、空间推理以及长文档解析等多样化任务上实现了显著提升。在 42 项公开基准的综合评测中，GLM-4.5V 在几乎所有同规模开源模型中取得领先，并在代码生成和 GUI Agents 等挑战性任务上表现出与 Gemini-2.5-Flash-202506 等闭源模型相当甚至更优的能力。与此同时，参数规模更小的 GLM-4.1V-9B-Thinking 也展现出极强竞争力。本次分享，将介绍这一系列模型背后的技术创新、实验成果，以及相应的开源与部署工具。

Hugging Face：huggingface.co/zai-org

Ovis多模态大模型：结构对齐下的视觉语言融合

卢世银阿里巴巴国际数字商业集团高级算法专家

简要概述 目前，主流开源 MLLM 通常以预训练 LLM 和 ViT 为基础，分别通过索引嵌入表生成文本嵌入、通过 MLP 生成视觉嵌入，导致文本嵌入与视觉嵌入在结构上存在差异，影响多模态信息的深度融合。针对这一挑战，阿里国际提出了新型 MLLM 架构 Ovis。Ovis 借鉴 LLM 的文本嵌入策略，引入可学习的视觉嵌入表，将视觉特征转化为概率化的视觉 token，并通过多次索引加权生成视觉嵌入，从而实现视觉与文本嵌入的结构化对齐与高效融合。本次分享将介绍 Ovis 的架构设计、训练策略、性能表现及开源最新动态。

Hugging Face：huggingface.co/AIDC-AI

阶跃星辰在多模态方向上的探索

孙泉：阶跃星辰研究员

简要概述 Step3 是一款前沿的开源多模态推理模型，基于 Mixture-of-Experts 架构，拥有 3210 亿参数（其中 380 亿为激活参数），在不同硬件平台上均能保持卓越的文本推理与多模态推理能力，能够实现精准的视觉理解，并显著降低幻觉率。NextStep-1 致力于探索新的自回归图像生成范式，通过采用轻量的 flow matching head 和更鲁棒的图像 tokenizer 实现在连续视觉空间中的自回归生成，在文生图和图像编辑任务上均表现出优异的性能。本次分享将介绍 Step3 和 NextStep-1 相关的技术探索。

Hugging Face：huggingface.co/stepfun-ai

观看直播