前沿模型系列(二)《科学多模态大模型》

目录

为什么需要专门的科学基座大模型?

[1. 能力坐标系的困境](#1. 能力坐标系的困境)

[2. Intern S1的目标定位](#2. Intern S1的目标定位)

科学多模态架构:专为科研场景设计

[1. 三大输入通道](#1. 三大输入通道)

[2. 架构优势](#2. 架构优势)

[高质量科学语料:2.5 万亿 token 的专业知识注入](#高质量科学语料:2.5 万亿 token 的专业知识注入)

1.数据规模与构成

[2. 六大科学领域覆盖](#2. 六大科学领域覆盖)

科学数据挖掘:两条核心管线

[1. PDF 文档解析管线](#1. PDF 文档解析管线)

[2. 网页数据召回过滤管线](#2. 网页数据召回过滤管线)

混合强化学习:兼顾严谨性与创造性

[1. 科学任务的多样性挑战](#1. 科学任务的多样性挑战)

[2. MOR 混合奖励模型](#2. MOR 混合奖励模型)

[3. 动态权重调整](#3. 动态权重调整)

[系统工程优化:全链路 FP8 精度](#系统工程优化:全链路 FP8 精度)

[1. 强化学习的成本挑战](#1. 强化学习的成本挑战)

[2. FP8 全链路支持](#2. FP8 全链路支持)

实际应用表现

[1. 科学任务能力](#1. 科学任务能力)

[2. 轻量化版本](#2. 轻量化版本)

科学发现平台:从模型到科研操作系统

[1. 四大能力面](#1. 四大能力面)

[2. 科研全流程覆盖](#2. 科研全流程覆盖)

总结


本节课由上海人工智能实验室团队授课,针对 Intern S1 科学多模态大模型------一个既具备顶尖通用智能,又拥有深厚科研素养的全能型科学基座模型展开深入讲解。

本节前置课程为《AI 模型导论与推理基础原理》《AI 模型导论与推理基础原理》,有需要的同学可以点击查看往期内容。

为什么需要专门的科学基座大模型?

1. 能力坐标系的困境

将模型能力置于二维坐标系中:

  • • 横轴:通用能力(日常对话、代码写作等)

  • • 纵轴:科学能力(数学推理、化学预测、物理建模等)

传统模型大多集中在右下角------通用能力强但科学能力弱;

专用科学模型则位于左上角------科学专业但通用性差。

2. Intern S1的目标定位

Intern S1 的目标是向右上角突破,不以牺牲通用能力为代价换取科学能力,而是通过通专融合实现两者兼顾:

  • • 全能高手:在通用多模态任务上超越现有开源模型

  • • 科学明星:在专业科学任务上超越甚至对标闭源模型

科学多模态架构:专为科研场景设计

1. 三大输入通道

Intern S1 采用专门的多模态架构,针对科学场景的三类典型输入设计了独立通道:

视觉模块

  • • 核心技术:自研 IntVIT 视觉编码器

  • • 应用场景:论文图表、气象图、显微图像等科学可视化内容

  • • 优势:专门针对科学图表的复杂结构进行优化

动态分词器

  • • 核心问题:传统静态分词器对科学符号序列处理效果差

  • • 解决方案:先识别字符串模态,再按模态选择分词策略

  • • 具体实现:

    • • SMILES分子式:<smiles>CC1=CC=CC=C1</smiles>

    • • FASTA蛋白质序列:<fasta>MKTVRQ...</fasta>

  • • 效果:SMILES 数据压缩率提升70%,显著降低计算开销

时序模块

  • • 应用场景:地震波、脑电波等连续时间序列信号

  • • 技术方案:专用时序编码器将连续信号转换为大模型可理解的 token 表示

2. 架构优势

这种分流投影的设计避免了将所有科学数据"一股脑"塞进文本 tokenizer 的问题,确保不同模态的科学数据都能得到最合适的处理。

高质量科学语料:

2.5 万亿 token 的专业知识注入

1.数据规模与构成
2. 六大科学领域覆盖
  • 重点调控六大科学领域的数据分布:

数学、物理、化学、生命科学、材料科学、地球科学

  • 差异化策略

    • • 生命科学:数据量大但噪音多,采用更严格的过滤策略

    • • 材料科学:数据相对稀缺,采用更宽松但可控的召回筛选

科学数据挖掘:两条核心管线

1. PDF 文档解析管线

核心挑战:科学PDF文献排版复杂,包含大量公式、符号,解析质量直接影响模型学习效果。

创新方案:页面级混合解析流水线

  • • 低成本解析器(Manus):处理大多数普通页面

  • • 高成本解析器(InterV):专门处理包含复杂公式、符号的疑难页面

  • • 智能分流:基于公式密度和复杂度自动选择解析器

  • • 统一后处理:规范化公式块边界、重排阅读顺序、修复乱码

2. 网页数据召回过滤管线
  • 核心挑战:网页科学内容含金量低,充斥广告和非科学内容。

  • 创新方案:域名级别智能质检

    • • 域名分组:将同一域名下的网页打包处理

    • • 抽样质检:从每个域名抽取代表性页面进行质量评估

    • • 大模型 Agent:判断网站科学价值,决定保留、丢弃或重写

    • • 标签扩展:将抽样结果扩展到整个域名

  • 质量保障:通过分布内/分布外验证集不断优化质检指令,确保过滤准确率达到要求。

混合强化学习:兼顾严谨性与创造性

1. 科学任务的多样性挑战
  • • 易验证任务:数学题、化学方程式等有明确答案

  • • 难验证任务:科研计划、实验构想等开放性问题

2. MOR 混合奖励模型

针对不同类型任务采用不同的奖励机制:

  • 易验证任务

    • • 规则验证器:直接验算答案正确性

    • • 大模型裁判:更强模型对比输出与标准答案

  • 难验证任务

    • • 奖励模型:如 PPO-7B 等模型评估输出质量

    • • 评估维度:逻辑自洽性、步骤可执行性、实验设计完整性

3. 动态权重调整

MOR 算法会动态调整各类奖励的权重,既保持科学严谨性,又不失发散创新能力:

  • • 该硬则硬:数学题等任务强调答案准确性

  • • 该软则软:科研写作等任务注重逻辑性和创造性

系统工程优化:全链路 FP8 精度

1. 强化学习的成本挑战
  • • 主要瓶颈:Rollout 轨迹采样阶段的吞吐量和带宽压力

  • • MoE 模型特性:长序列、多专家路由增加系统负担

2. FP8 全链路支持

Intern S1 在全训练流程中采用8位浮点数精度,显著提升 Rollout 吞吐量,降低强化学习整体成本。

实际应用表现

1. 科学任务能力
  • • IMO 2025 数学竞赛:达到人类选手银牌水平,能给出完整严密的证明过程

  • • 化学文献解析:不仅能提取文字,还能完美解析复杂化学反应路径图

  • • 天文学识别:能准确识别黑洞吸积盘特征,排除猫、甜甜圈等干扰项

2. 轻量化版本
  • • Intern S1 Mini:8B 参数轻量版本

  • • 硬件要求:单张 24GB 显存消费级显卡(如 RTX 4090)

  • • 性能表现:在化学、材料等任务上超越多个 70B 大模型

科学发现平台:从模型到科研操作系统

Intern S1 不仅是模型,更是科学发现平台的核心引擎:

1. 四大能力面
  • • 科学研究助手:文献梳理、信息整合、想法生成

  • • 科学数据广场:汇集 200PB 清洗好的 AI-ready 科学数据

  • • 科学智能体:自动拆解复杂任务,调用工具完成子任务

  • • 科学模型开发:训练、微调、评测、算力协同一体化

2. 科研全流程覆盖

总结

Intern S1科学多模态大模型代表了 AI for Science 的新范式------通过科学多模态架构 + 高质量科学语料 + 混合强化学习 + 系统工程优化的协同增益,Intern S1 成功实现了通用能力与科学能力的双重突破,为科研工作者提供了强大的 AI 助手。希望更多研究者能够掌握这一工具,在各自领域做出"很酷的成果"。

相关推荐
rainbow7242442 小时前
文科生考认证入门AI?官方没说的大实话:你可能根本不适合
人工智能
coft2 小时前
AI 大模型如何重塑大数据开发平台:从“写SQL“到“说人话“
大数据·人工智能·sql
funkygroove2 小时前
从FDA到PMDA,孤儿药数据如何影响研发与BD决策
人工智能·医药数据库
小陈phd2 小时前
多模态大模型学习笔记(十四)——transformer学习之Self-Attention
人工智能·自然语言处理·transformer
MoRanzhi12032 小时前
Pillow 图像算术运算与通道计算
图像处理·人工智能·python·计算机视觉·pillow·图像差异检测·图像算术运算
小超同学你好2 小时前
Langgraph 4. 反思 Reflection
人工智能·语言模型·langchain
带娃的IT创业者2 小时前
神经形态意识模块理论基础详解:六大核心理论支柱
人工智能·深度学习·脑科学·神经科学·认知科学·意识理论·ai 架构
TrueDei2 小时前
10年学习Linux大师说这些命令不会等于不会Linux
linux·运维·学习
im_AMBER2 小时前
前端性能优化之首屏提速
前端·学习·性能优化