sVLM 六大研究热点及已开源案例

sVLM 六大未来方向 对应"目前已有重大突破的开源案例"整理。目前六个方向都有开源案例,但成熟度不一样 。其中 能效优化、异构算子融合、知识增强蒸馏 已经比较接近工程落地;动态模态加权、多模态持续学习 已有较强研究原型;因果对齐 仍主要停留在研究框架和任务型验证,还没有成为 sVLM 主流训练范式。


1. 动态模态加权:从"固定融合"走向"动态路由 / MoE 专家选择"

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
MoE-LLaVA 使用稀疏 MoE 路由学习多模态交互,3B sparse activated 参数即可达到或接近 LLaVA-1.5-7B,并在对象幻觉 benchmark 上超过 LLaVA-1.5-13B;代码和数据已开放。 可把"图像 token / 文本 token / OCR token / 检测框 token"动态分配到不同专家,适合小模型做按任务激活。([GitHub][1])
Uni-MoE / Uni-MoE 2.0 用动态容量 MoE、模态专家和 progressive training 支持图像、文本、语音等十余种跨模态交互。 虽然规模偏大,但其"模态级专家 + 动态容量路由"很适合迁移成 sVLM 的轻量 gating。([GitHub][2])
DynMM 样本级决定采用哪些模态,属于早期动态多模态融合框架。 更适合做 sVLM 前端策略:低置信度才启用视觉大分支,高置信度走轻量分类/embedding。([GitHub][3])

研究热点判断

动态模态加权在 sVLM 中不会只是"视觉权重 0.7、文本权重 0.3"这种静态比例,而会发展成:

text 复制代码
输入质量 / 任务类型 / 置信度 / 设备算力
        ↓
动态选择视觉分辨率、视觉 token 数、OCR 分支、检测分支、VLM 分支
        ↓
只激活必要专家或必要模态

对你的自动售货柜项目尤其有价值:清晰正视图 → YOLO+embedding;遮挡/包装变化 → OCR/VLM;低置信度 → 多模态专家投票


2. 因果对齐:从"相关性对齐"走向"反事实 / 因果图 / 去伪相关"

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
CausalVLR 面向视觉-语言因果推理的开源 toolbox,集成因果发现、因果推理方法,覆盖医学报告生成、视频问答等任务。 可作为 sVLM 因果对齐研究底座,用于分析"背景、品牌、包装颜色、文字"等伪相关因素。([GitHub][4])
CaPL:Causality-guided Prompt Learning 通过 visual granulation 构造 factual / counterfactual granules,用因果提示提升细粒度识别。 对小模型很实用:不直接改大骨干,而是在 prompt / adapter 层做因果纠偏。([GitHub][5])
COGT 用 Causal Graphical Model 建模视觉 token 与文本 token 的依赖关系,减少语言生成中的伪相关。 更偏 caption / reasoning,但可迁移到 sVLM 的结构化输出、报告生成、VQA。([GitHub][6])

成熟度判断

因果对齐还没有像蒸馏、量化那样形成通用工程 pipeline。目前更适合作为:

text 复制代码
数据增强:反事实样本
训练约束:去背景、去颜色偏置
评估集:包装变化 / 背景变化 / 遮挡变化
推理策略:给出因果解释与置信度

在零售 SKU 场景中,因果对齐的核心价值是防止模型把 货架位置、背景颜色、价格牌、相邻商品 当成 SKU 本体特征。


3. 知识增强蒸馏:从"大模型压小模型"走向"跨模态关系 / 领域知识 / 合成数据蒸馏"

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
TinyCLIP 通过 affinity mimicking 和 weight inheritance 做跨模态蒸馏,在速度与精度之间取得更好平衡。 适合把大 CLIP / SigLIP 的图文对齐能力蒸馏到小视觉编码器。([GitHub][7])
MobileCLIP / MobileCLIP2 使用 captioner 和强 CLIP ensemble 做 multi-modal reinforced training,将额外知识存入 reinforced dataset,提升移动端 image-text 模型精度。 这是"知识增强蒸馏"的强代表:不是只蒸 logits,而是蒸 teacher caption、teacher embedding、teacher ranking。([Apple Machine Learning Research][8])
LLaVA-Med 利用 PubMed Central 图文数据和 GPT-4 生成的 instruction data,通过 curriculum learning 适配医学领域;代码、数据、模型以研究用途开放。 说明"领域知识 + 合成指令 + VLM 微调"可以让通用 VLM 迁移到专用行业。([GitHub][9])
MiniGPT-Med 开源医学视觉语言模型代码,支持医学影像任务,如报告生成、VQA、疾病识别。 适合参考其领域数据组织和医学多任务微调方式。([GitHub][10])

研究热点判断

sVLM 的知识增强蒸馏会从三条线发展:

text 复制代码
1)Teacher VLM → Student sVLM
   蒸馏 embedding / attention / answer / reasoning trace

2)领域知识 → Prompt / Adapter / 数据
   如医学本体、商品类目树、SKU 属性表、包装版本映射

3)合成数据 → 小模型指令微调
   用 GPT-4V/Qwen-VL 等生成图像问答、属性描述、反事实样本

4. 异构算子融合:CNN / ViT / MLP / Token Compressor 协同

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
MobileVLM / MobileVLM V2 使用 mobile-oriented 架构和 LDPv2 lightweight downsample projector,1.7B 模型可达到或接近更大 3B VLM 的 benchmark 表现。 LDPv2 思路非常适合边缘 sVLM:先压视觉 token,再送 LLM,降低注意力开销。([GitHub][11])
FastVLM 引入 FastViTHD 混合视觉编码器,减少高分辨率图像 token 和编码时间;官方代码开源,并支持 Apple 设备推理与量化导出。 代表"混合视觉编码器 + 少 token + 高分辨率"的新趋势。([Hugging Face][12])
EfficientViT / EfficientViT-SAM 面向高效视觉基础模型,已被用于 Grounding DINO 1.5 Edge、EfficientViT-SAM 等边缘视觉任务。 可作为 sVLM 视觉塔替代方案,尤其适合检测、分割、开放词汇识别前端。([GitHub][13])

研究热点判断

sVLM 的异构算子融合核心不是"堆更多 Transformer",而是:

text 复制代码
CNN / RepConv:提取局部纹理、边缘、包装细节
ViT / SigLIP:做全局语义与图文对齐
Token Compressor:减少视觉 token
MLP / QFormer / Resampler:桥接视觉与语言空间
LLM:只负责语义推理与结构化回答

对边缘端部署,最重要的是 视觉 token 数量。很多 VLM 慢,并不是 LLM 本身最慢,而是高分辨率图像被切成太多视觉 token 后,注意力计算爆炸。


5. 能效优化:从"能跑"走向"手机 / Jetson / 浏览器 / 本地实时可用"

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
SmolVLM 2B 小型 VLM,官方称其小、快、内存友好、完全开源,并开放模型、数据集、训练 recipe 和工具。 是 sVLM 开源路线的典型工程样板。([Hugging Face][14])
MiniCPM-V 4.6 1.3B 参数,面向手机/端侧部署;通过 mixed 4x/16x visual token compression 和视觉编码计算优化,降低视觉编码 FLOPs,并开放 iOS/Android/HarmonyOS 边缘部署指引。 很适合参考其"视觉 token 压缩 + 端侧部署"策略。([GitHub][15])
MobileVLM 面向移动设备的小型 VLM,MobileVLM V2 1.7B 在标准 VLM benchmark 上达到或接近更大 3B 模型。 适合作为 1B--3B 级 sVLM 工程 baseline。([GitHub][11])
FastVLM-0.5B 最小版本相比 LLaVA-OneVision-0.5B 有 85× 更快 TTFT 和 3.4× 更小视觉编码器。 对"实时拍照问答 / 边缘质检 / 低延迟 VQA"很有参考价值。([Hugging Face][12])
llama.cpp / MLC LLM 生态 已成为本地 LLM/VLM 量化与跨平台部署的重要工具链,MiniCPM-V 文档也提供 llama.cpp 本地运行路径。 适合把 sVLM 变成 GGUF / int4 / int8 / Metal / Vulkan / CPU fallback 的工程形态。([MiniCPM][16])

研究热点判断

未来 sVLM 能效优化会集中在:

text 复制代码
视觉 token 压缩 > LLM 量化 > KV cache 优化 > 分辨率动态选择 > NPU/DSP/HTP 编译

对 Jetson Orin / RK3588 / Qualcomm QNN 这类端侧设备,建议优先关注:

text 复制代码
MiniCPM-V / SmolVLM / MobileVLM / FastVLM
+ int4/int8 量化
+ llama.cpp / MLC / ONNXRuntime / TensorRT / QNN
+ 视觉 token 压缩

6. 多模态持续学习:从"离线一次训练"走向"增量 SKU / 新包装 / 新场景"

代表开源案例:

开源案例 关键突破 对 sVLM 的启发
PROOF 面向 VLM class-incremental learning,通过冻结图像/文本编码器并扩展 task-specific projection,缓解灾难性遗忘。 适合新增类别、新 SKU、新包装版本时只加 projection / adapter,而不全量训练。([GitHub][17])
MoE-Adapters4CL 通过动态扩展 MoE adapters 做 VLM 持续学习,并使用 DDAS 自动区分 in-distribution / out-of-distribution 输入;同时降低 60% 参数训练负担。 很适合"每批新增商品只新增 adapter/expert"的零售场景。([GitHub][18])
CLAP4CLIP 面向 CLIP 的概率式持续学习框架,支持多种 prompt 形式和 class-incremental learning。 可用于提升增量学习中的不确定性估计,避免新类覆盖旧类。([GitHub][19])
Awesome Continual-learning of VLMs 系统汇总 VLM 持续学习问题,指出跨模态对齐和泛化能力容易受灾难性遗忘影响。 可作为持续学习论文/代码索引。([GitHub][20])

研究热点判断

sVLM 持续学习真正有价值的不是"每次重训模型",而是:

text 复制代码
新类别 / 新包装 / 新场景
        ↓
注册 embedding / prompt / adapter / expert
        ↓
旧类别冻结,新类别增量学习
        ↓
通过 replay / distillation / OOD router 防止遗忘

这和自动售货柜非常匹配:
新增 10 个 SKU 不应该重新训练整套 VLM,而应通过 embedding 注册、LoRA/adapter 增量、少量 hard negative 样本完成更新


六大方向成熟度排序

排名 方向 当前成熟度 推荐关注度
1 能效优化 最高,已有 SmolVLM、MiniCPM-V、MobileVLM、FastVLM 等开源模型 ★★★★★
2 异构算子融合 很高,视觉 token 压缩、hybrid encoder、LDP 已经有效 ★★★★★
3 知识增强蒸馏 高,TinyCLIP、MobileCLIP、LLaVA-Med 已证明路线有效 ★★★★★
4 多模态持续学习 中高,PROOF、MoE-Adapters4CL、CLAP4CLIP 已有强研究原型 ★★★★☆
5 动态模态加权 中高,MoE-LLaVA、Uni-MoE 证明动态路由有效,但小模型工程化仍在发展 ★★★★☆
6 因果对齐 中等,CausalVLR、CaPL 等有研究突破,但工业 sVLM pipeline 尚未标准化 ★★★☆☆

复制代码
最值得重点跟踪的开源项目清单:

```text
1. SmolVLM
2. MiniCPM-V
3. MobileVLM / MobileVLM V2
4. FastVLM
5. TinyCLIP
6. MobileCLIP / MobileCLIP2
7. MoE-LLaVA
8. Uni-MoE
9. PROOF
10. MoE-Adapters4CL
11. CLAP4CLIP
12. CausalVLR
13. CaPL

总结:
sVLM 的突破点已经从"模型更小"转向"视觉 token 更少、模态动态激活、知识可蒸馏、类别可持续增长、因果更稳健"。

参考链接:

1\]: https://github.com/PKU-YuanGroup/MoE-LLaVA "GitHub - PKU-YuanGroup/MoE-LLaVA: 〖TMM 2025〗 Mixture-of-Experts for Large Vision-Language Models · GitHub" \[2\]: https://github.com/HITsz-TMG/Uni-MoE "GitHub - HITsz-TMG/Uni-MoE: Uni-MoE: Lychee's Large Multimodal Model Family. · GitHub" \[3\]: https://github.com/zihuixue/DynMM?utm_source=chatgpt.com "zihuixue/DynMM - Dynamic Multimodal Fusion" \[4\]: https://github.com/HCPLab-SYSU/CausalVLR "GitHub - HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Vision-Language Causal Reasoning (多模态因果推理开源框架) · GitHub" \[5\]: https://github.com/GaoMY-521/causality-guided-prompt-learning "GitHub - GaoMY-521/causality-guided-prompt-learning: Causality-guided Prompt Learning for Vision-language Models via Visual Granulation · GitHub" \[6\]: https://github.com/aimagelab/COGT?utm_source=chatgpt.com "\[ICLR 2025\] Causal Graphical Models for Vision-Language ..." \[7\]: https://github.com/wkcn/TinyCLIP "GitHub - wkcn/TinyCLIP: \[ICCV2023\] TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance · GitHub" \[8\]: https://machinelearning.apple.com/research/mobileclip "MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training - Apple Machine Learning Research" \[9\]: https://github.com/microsoft/LLaVA-Med "GitHub - microsoft/LLaVA-Med: Large Language-and-Vision Assistant for Biomedicine, built towards multimodal GPT-4 level capabilities. · GitHub" \[10\]: https://github.com/Vision-CAIR/MiniGPT-Med "GitHub - Vision-CAIR/MiniGPT-Med: Open-sourced code of MiniGPT-Med · GitHub" \[11\]: https://github.com/Meituan-AutoML/MobileVLM "GitHub - Meituan-AutoML/MobileVLM: Strong and Open Vision Language Assistant for Mobile Devices · GitHub" \[12\]: https://huggingface.co/apple/FastVLM-0.5B "apple/FastVLM-0.5B · Hugging Face" \[13\]: https://github.com/mit-han-lab/efficientvit?utm_source=chatgpt.com "mit-han-lab/efficientvit: Efficient vision foundation models ..." \[14\]: https://huggingface.co/blog/smolvlm "SmolVLM - small yet mighty Vision Language Model" \[15\]: https://github.com/OpenBMB/MiniCPM-V "GitHub - OpenBMB/MiniCPM-V: A Pocket-Sized MLLM for Ultra-Efficient Image and Video Understanding on Your Phone · GitHub" \[16\]: https://minicpm-o.readthedocs.io/en/latest/run_locally/llama.cpp.html?utm_source=chatgpt.com "llama.cpp - MiniCPM-V \& o Cookbook" \[17\]: https://github.com/LAMDA-CL/PROOF "GitHub - LAMDA-CL/PROOF: Learning without Forgetting for Vision-Language Models (TPAMI 2025) · GitHub" \[18\]: https://github.com/JiazuoYu/MoE-Adapters4CL "GitHub - JiazuoYu/MoE-Adapters4CL: Code for paper "MoE-Adapters" CVPR2024 and "MoE-Adapters++" TPAMI2025 · GitHub" \[19\]: https://github.com/srvCodes/clap4clip "GitHub - srvCodes/clap4clip: Code for our NeurIPS´24 paper · GitHub" \[20\]: https://github.com/YuyangSunshine/Awesome-Continual-learning-of-Vision-Language-Models?utm_source=chatgpt.com "YuyangSunshine/Awesome-Continual-learning-of-Vision- ..."

相关推荐
同元软控3 小时前
建模也有Skills了:MWORKS.Sysplorer Skills已开源至MoHub!
人工智能·开源·mworks
lularible4 小时前
从沙子到车辙(2.1):思想实验——在原始森林里造芯片
开源·嵌入式·汽车电子
草邦设计开发团队_媒体资源平台4 小时前
什么是软文发布之GEO优化开源媒介运营管理系统
开源·geo优化·软文发稿系统·软文发布·自媒体运营平台·geo发布系统
卷卷说风控5 小时前
【卷卷观察】AI垃圾正在杀死开源——当机器人淹没了人类贡献者
人工智能·机器人·开源
yantuguiguziPGJ5 小时前
软件开发开源日报
开源
lularible5 小时前
从沙子到车辙(2.4):CMOS——互补的智慧
开源·嵌入式·汽车电子
lularible5 小时前
从沙子到车辙(2.5):半导体制造工艺
开源·嵌入式·制造·汽车电子
Mininglamp_27185 小时前
开源端侧 AI Agent 全栈架构解析:Mano-P 模型 + Cider 推理加速 + AFK 自动构建
人工智能·架构·开源·agent·mac·apple silicon·gui agent
冬奇Lab15 小时前
一天一个开源项目(第105篇):Academic Research Skills - 学术研究全流程 AI 代理套件,及其工作流设计的启示
人工智能·开源·资讯