月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎯 「16B参数竟比GPT-4o更会看图？月之暗面开源核弹级多模态模型」

大家好，我是蚝油菜花。当大厂还在比拼千亿参数时，这个仅激活2.8B参数的模型正在颠覆多模态认知！

你是否经历过这些AI视觉修罗场：

今天要解剖的 Kimi-VL ，正是破解这些痛点的多模态手术刀！这个基于MoE架构的开源神器：

已有团队用它解析卫星云图，教育平台靠它批改图文作业------你的多模态工具箱该升级了！

🚀 快速阅读

Kimi-VL 是基于混合专家架构(MoE)研发的多模态视觉语言模型，总参数量达160亿但推理时仅需激活28亿参数。该模型通过SigLIP-SO-400M视觉编码器处理高分辨率输入，配合多层感知机实现视觉与语言特征的高效对齐。

其训练体系包含预训练、冷却、长上下文激活三阶段，后训练阶段采用32K/128K上下文联合微调。独特的Thinking版本引入长链推理监督微调和强化学习，在数学解题等复杂任务中展现超强持续推理能力。

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦