过去几年,整个 AI 行业几乎都笼罩在 Scaling Law 的叙事之下。参数越大、训练数据越多,模型似乎就越接近「通用智能」。从千亿到万亿参数,大模型不断刷新人们对推理能力与世界知识的想象,也让「堆算力、卷规模」成为行业默认的发展路径。
但当 AI 真正开始走向产业落地,一个现实问题逐渐浮现:并不是所有场景,都需要部署在云端机房里的超级模型。 高昂的推理成本、不可控的网络延迟,以及日益敏感的数据隐私风险,正在让「大而全」的模型路线遭遇瓶颈。性能、时效与成本之间的「不可能三角」,成为 AI 普惠必须面对的问题。
于是,一个看似反常识的趋势开始出现:参数更小的模型,反而在越来越多真实场景中展现出更高的效率与性价比。尤其是在端侧设备与高并发工业环境里,轻量级模型正在承担 OCR、图像问答、意图识别等基础任务。 它们既能在手机端毫秒级离线运行,也能在 RAG 系统中负责路由分流与成本压缩,成为 AI 应用真正落地的重要基础设施。
近日,面壁智能、清华大学、OpenBMB 联手开源了新一代端侧多模态模型 MiniCPM-V 4.6,该模型参数规模仅约 1.3B,却同时支持图像理解、视频理解、OCR 与多轮多模态对话等能力,并在多项评测中实现了对同级别模型的超越。

值得关注的是,官方 Model Card 提供了基于 Transformers 的 AutoProcessor 与 AutoModelForImageTextToText 推理方案,适合在单卡 GPU 环境中进行快速验证与应用原型开发。
目前,OpenBayes 官网已上线「 MiniCPM-V-4.6:端侧高效多模态视觉语言模型 」教程, 一键即可启动,低门槛部署。
在线运行链接

demo 运行示例
Demo 运行
01 Demo 运行阶段
1.登录 OpenBayes.com,在「公共教程」页面,搜索并选择「MiniCPM-V-4.6:端侧高效多模态视觉语言模型」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 5090」以及「PyTorch」镜像,点击「继续执行」。新用户使用下方邀请链接注册,即可获得满 ¥10 赠 ¥10 优惠券,更有机会获得 ¥15 赠金!
小贝总专属邀请链接:


4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。

02 效果演示
1.页面跳转后,点击左侧 README.ipynb 文件,进入后运行文件。


2.待运行完成,即可点击右侧 API 地址跳转至 demo 页面。


教程链接: