前沿模型系列（二）《科学多模态大模型》

为什么需要专门的科学基座大模型？

[1. 能力坐标系的困境](#1. 能力坐标系的困境)

[2. Intern S1的目标定位](#2. Intern S1的目标定位)

科学多模态架构：专为科研场景设计

[1. 三大输入通道](#1. 三大输入通道)

[2. 架构优势](#2. 架构优势)

[高质量科学语料：2.5 万亿 token 的专业知识注入](#高质量科学语料：2.5 万亿 token 的专业知识注入)

1.数据规模与构成

[2. 六大科学领域覆盖](#2. 六大科学领域覆盖)

科学数据挖掘：两条核心管线

[1. PDF 文档解析管线](#1. PDF 文档解析管线)

[2. 网页数据召回过滤管线](#2. 网页数据召回过滤管线)

混合强化学习：兼顾严谨性与创造性

[1. 科学任务的多样性挑战](#1. 科学任务的多样性挑战)

[2. MOR 混合奖励模型](#2. MOR 混合奖励模型)

[3. 动态权重调整](#3. 动态权重调整)

[系统工程优化：全链路 FP8 精度](#系统工程优化：全链路 FP8 精度)

[1. 强化学习的成本挑战](#1. 强化学习的成本挑战)

[2. FP8 全链路支持](#2. FP8 全链路支持)

实际应用表现

[1. 科学任务能力](#1. 科学任务能力)

[2. 轻量化版本](#2. 轻量化版本)

科学发现平台：从模型到科研操作系统

[1. 四大能力面](#1. 四大能力面)

[2. 科研全流程覆盖](#2. 科研全流程覆盖)

总结

本节课由上海人工智能实验室团队授课，针对 Intern S1 科学多模态大模型------一个既具备顶尖通用智能，又拥有深厚科研素养的全能型科学基座模型展开深入讲解。

本节前置课程为《AI 模型导论与推理基础原理》《AI 模型导论与推理基础原理》，有需要的同学可以点击查看往期内容。

为什么需要专门的科学基座大模型？

1. 能力坐标系的困境

将模型能力置于二维坐标系中：

• 横轴：通用能力（日常对话、代码写作等）
• 纵轴：科学能力（数学推理、化学预测、物理建模等）

传统模型大多集中在右下角------通用能力强但科学能力弱；

专用科学模型则位于左上角------科学专业但通用性差。

2. Intern S1的目标定位

Intern S1 的目标是向右上角突破，不以牺牲通用能力为代价换取科学能力，而是通过通专融合实现两者兼顾：

• 全能高手：在通用多模态任务上超越现有开源模型
• 科学明星：在专业科学任务上超越甚至对标闭源模型

科学多模态架构：专为科研场景设计

1. 三大输入通道

Intern S1 采用专门的多模态架构，针对科学场景的三类典型输入设计了独立通道：

视觉模块

• 核心技术：自研 IntVIT 视觉编码器
• 应用场景：论文图表、气象图、显微图像等科学可视化内容
• 优势：专门针对科学图表的复杂结构进行优化

动态分词器

• 核心问题：传统静态分词器对科学符号序列处理效果差
• 解决方案：先识别字符串模态，再按模态选择分词策略
• 具体实现：
- • SMILES分子式：<smiles>CC1=CC=CC=C1</smiles>
- • FASTA蛋白质序列：<fasta>MKTVRQ...</fasta>
• 效果：SMILES 数据压缩率提升70%，显著降低计算开销

时序模块

• 应用场景：地震波、脑电波等连续时间序列信号
• 技术方案：专用时序编码器将连续信号转换为大模型可理解的 token 表示

2. 架构优势

这种分流投影的设计避免了将所有科学数据"一股脑"塞进文本 tokenizer 的问题，确保不同模态的科学数据都能得到最合适的处理。

高质量科学语料：

2.5 万亿 token 的专业知识注入

1.数据规模与构成

2. 六大科学领域覆盖

• 重点调控六大科学领域的数据分布：

数学、物理、化学、生命科学、材料科学、地球科学

• 差异化策略：
- • 生命科学：数据量大但噪音多，采用更严格的过滤策略
- • 材料科学：数据相对稀缺，采用更宽松但可控的召回筛选

科学数据挖掘：两条核心管线

1. PDF 文档解析管线

核心挑战：科学PDF文献排版复杂，包含大量公式、符号，解析质量直接影响模型学习效果。

创新方案：页面级混合解析流水线

• 低成本解析器（Manus）：处理大多数普通页面
• 高成本解析器（InterV）：专门处理包含复杂公式、符号的疑难页面
• 智能分流：基于公式密度和复杂度自动选择解析器
• 统一后处理：规范化公式块边界、重排阅读顺序、修复乱码

2. 网页数据召回过滤管线

• 核心挑战：网页科学内容含金量低，充斥广告和非科学内容。
• 创新方案：域名级别智能质检
- • 域名分组：将同一域名下的网页打包处理
- • 抽样质检：从每个域名抽取代表性页面进行质量评估
- • 大模型 Agent：判断网站科学价值，决定保留、丢弃或重写
- • 标签扩展：将抽样结果扩展到整个域名
• 质量保障：通过分布内/分布外验证集不断优化质检指令，确保过滤准确率达到要求。

混合强化学习：兼顾严谨性与创造性

1. 科学任务的多样性挑战

• 易验证任务：数学题、化学方程式等有明确答案
• 难验证任务：科研计划、实验构想等开放性问题

2. MOR 混合奖励模型

针对不同类型任务采用不同的奖励机制：

• 易验证任务
- • 规则验证器：直接验算答案正确性
- • 大模型裁判：更强模型对比输出与标准答案
• 难验证任务
- • 奖励模型：如 PPO-7B 等模型评估输出质量
- • 评估维度：逻辑自洽性、步骤可执行性、实验设计完整性

3. 动态权重调整

MOR 算法会动态调整各类奖励的权重，既保持科学严谨性，又不失发散创新能力：

• 该硬则硬：数学题等任务强调答案准确性
• 该软则软：科研写作等任务注重逻辑性和创造性

系统工程优化：全链路 FP8 精度

1. 强化学习的成本挑战

• 主要瓶颈：Rollout 轨迹采样阶段的吞吐量和带宽压力
• MoE 模型特性：长序列、多专家路由增加系统负担

2. FP8 全链路支持

Intern S1 在全训练流程中采用8位浮点数精度，显著提升 Rollout 吞吐量，降低强化学习整体成本。

实际应用表现

1. 科学任务能力

• IMO 2025 数学竞赛：达到人类选手银牌水平，能给出完整严密的证明过程
• 化学文献解析：不仅能提取文字，还能完美解析复杂化学反应路径图
• 天文学识别：能准确识别黑洞吸积盘特征，排除猫、甜甜圈等干扰项

2. 轻量化版本

• Intern S1 Mini：8B 参数轻量版本
• 硬件要求：单张 24GB 显存消费级显卡（如 RTX 4090）
• 性能表现：在化学、材料等任务上超越多个 70B 大模型

科学发现平台：从模型到科研操作系统

Intern S1 不仅是模型，更是科学发现平台的核心引擎：

1. 四大能力面

• 科学研究助手：文献梳理、信息整合、想法生成
• 科学数据广场：汇集 200PB 清洗好的 AI-ready 科学数据
• 科学智能体：自动拆解复杂任务，调用工具完成子任务
• 科学模型开发：训练、微调、评测、算力协同一体化

2. 科研全流程覆盖

总结

Intern S1科学多模态大模型代表了 AI for Science 的新范式------通过科学多模态架构 + 高质量科学语料 + 混合强化学习 + 系统工程优化的协同增益，Intern S1 成功实现了通用能力与科学能力的双重突破，为科研工作者提供了强大的 AI 助手。希望更多研究者能够掌握这一工具，在各自领域做出"很酷的成果"。