【MLLM】科学领域Innovator-VL多模态模型

note

  • Innovator-VL架构上,视觉编码器RICE-ViT【区域感知表示学习的ViT变体,融合全局和局部视觉线索,优化目标与OCR区域表示,适配科学图像的符号、标注、空间局部模式等细粒度结构,相比CLIP/SigLIP,在分割、密集检测等视觉任务表现更优】+投影层PatchMerger压缩视觉token+语言模型Qwen3-8B-Base【在STEM、逻辑推理、长上下文理解上表现优异】

文章目录

一、Innovator-VL模型

【科学领域多模态大模型进展】之前讲过interns1多模态模型,这个系列继续看一个新的模型Innovator-VL: A Multimodal Large Language Model for Scientific Discovery,https://arxiv.org/pdf/2601.19325,Homepage: https://InnovatorLM.github.io/Innovator-VL,Github: https://InnovatorLM/Innovator-VL,Instruct Model: https://nnovatorLab/Innovator-VL-8B-Instruct,Thinking Model: https://InnovatorLab/Innovator-VL-8B-Thinking,instruct Data: https://InnovatorLab/Innovator-VL-Instruct-46M,RL Data: https://InnovatorLab/Innovator-VL-RL-172K,核心看几点:

1)架构上,视觉编码器RICE-ViT【区域感知表示学习的ViT变体,融合全局和局部视觉线索,优化目标与OCR区域表示,适配科学图像的符号、标注、空间局部模式等细粒度结构,相比CLIP/SigLIP,在分割、密集检测等视觉任务表现更优】+投影层PatchMerger压缩视觉token+语言模型Qwen3-8B-Base【在STEM、逻辑推理、长上下文理解上表现优异】。

2)训练流程上采用预训练→有监督微调(SFT)→强化学习(RL)的分阶段训练策略:

  • step1.预训练语言-图像对齐(LLaVA-1.5,558k样本)+高质量中期训练(85M样本),全参数训练
  • step2.有监督微调(SFT)46M样本,含通用多模态/思维链推理/科学理解数据,人工参与数据构建,做冷启动
  • step3.强化学习(RL)172K数据集,采用偏差驱动选择,筛选Pass@N与Pass@1差距大的样本,保留中等难度实例。使用GSPO优化算法,分层奖励系统(格式+准确率);

3)训练数据上,少样本(<500万科学样本)、高质量、人工参与、领域覆盖广,STEM&Code占比最高(RL阶段56.4%),含化学/物理/生物/数学等科学领域,方式为合成生成+真实来源,领域专家审核,迭代优化与质量控制。

Reference

1\] https://arxiv.org/pdf/2601.19325

相关推荐
囫囵吞桃8 小时前
Agent出现LLM因为历史工具调用消息而误解工具调用方式的问题
llm·agent
冬奇Lab10 小时前
RAG 系列(十三):查询优化——让问题问得更好
人工智能·llm
故事还在继续吗19 小时前
Mac 本地部署大模型
macos·llm·qwen
swipe20 小时前
别把 Agent 写成一团 Prompt:用 LangGraph 把多 Agent 系统变成可控状态机
后端·langchain·llm
CoderJia程序员甲20 小时前
GitHub 热榜项目 - 周榜(2026-05-10)
人工智能·ai·大模型·llm·github
feasibility.20 小时前
多模态模型Qwen-3.5在Llama-Factory使用+llama.cpp量化导出+部署流程(含报错处理)
人工智能·llm·多模态·量化·llama.cpp·vlm·llama-factory
一个处女座的程序猿21 小时前
MultiAgent之OpenClaw:QuantClaw的简介、安装和使用方法、案例应用之详细攻略
llm·openclaw·quantclaw
Lazy_zheng21 小时前
LangChain + RAG 入门实战:从模型调用到完整 RAG 流水线
langchain·llm·agent
小马过河R1 天前
从官方定义读懂智能体的时代分量
人工智能·语言模型·大模型·llm·agent·ai编程·多模态
一个处女座的程序猿1 天前
OpenAI之CLI:OpenAI CLI的简介、安装和使用方法、案例应用之详细攻略
llm·openai·cli