1B超越56B:阿里开源首个统一科学语法大模型LOGOS,纯序列范式打破3D几何依赖

在AI for Science(AI4S)领域,如何用一个大模型解决生命科学、化学、材料等多领域的跨学科任务,一直是学术界和工业界探索的圣杯。

传统做法通常依赖专用模型(如专门处理蛋白质的ESM或处理小分子的UniMol),或者依赖复杂的3D几何神经网络来捕捉空间相互作用。然而,这种多技术栈并存的现状,不仅导致不同领域间的知识难以迁移,也使得AI4S的研究难以直接复用主流大语言模型(LLM)庞大的工程生态。

近日,阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院提交了最新技术报告,开源了首个 统一科学语法多领域科学生成基础模型------LOGOS(Language Of Generative Objects in Science)。

LOGOS做出了一个极其大胆且优雅的尝试:丢弃显式3D坐标和几何网络,将蛋白质、小分子、材料、反应等所有异构对象及空间交互,统一编码为离散的Token序列,并在纯序列自回归范式下实现了多学科任务的全面超越。

在开源社区上,LOGOS已同步上线 HuggingFace模型库GitHub仓库


一、 核心思路:统一的"科学语法"与空间交互离散化

LOGOS的核心推论在于:尽管生物、化学、材料在符号表征上高度异构,但它们底层都遵循特定的组合规则、结构约束和交互语义。既然它们都是"自然的语言",就可以通过一套统一的形式语法(Unified Scientific Grammar)将其纳入同一个Token空间中。

1. 空间交互的"语法化"

处理3D空间相互作用(如蛋白质口袋与小分子配体的结合)通常需要复杂的3D坐标计算。LOGOS提出了空间交互离散化

  • 放弃显式的三维坐标输入,转而将3D空间接触模式和约束规律转化为序列文字描述。
  • 比如在蛋白质口袋的表征中,模型不仅在氨基酸序列中插入 <PocketS><PocketE> 边界符,还会根据侧链化学特性,将口袋残基直接展开为其对应的化学侧链 SMILES 字符串
  • 这种设计将原本属于"生物符号"的氨基酸与属于"化学结构"的小分子片段,在同一个表征维度上进行了对齐。
2. 形式与目标的完全等价

在传统的预训练-微调(BERT范式)中,预训练通常在做掩码重构(MLM)或对比对齐,而下游则是优化结合亲和力或合成可行性,二者存在显著的语义断层(Gap)。

LOGOS基于纯自回归架构,其预训练阶段的 Next-token Prediction,在形式和目标上与下游的"条件生成任务"完全一致。例如,在药物设计任务中,输入口袋序列直接预测配体SMILES,消除了传统方法中预训练和下游应用之间的鸿沟。


二、 极致的参数效率:1B模型跨多任务超越56B

研发团队开源了 1B、3B、8B 三种参数规模的模型。实验数据表明,由于科学语法的设计避免了模型能力在无关自然语言语料上的内耗,LOGOS表现出了极其恐怖的参数效率

1. 口袋条件配体生成(药物设计)

在测试集评估中,仅有 1B 参数的 LOGOS-1B 模型,在关键指标 Vina Docking Score(结合亲和力)上达到了 -7.64,直接击败了参数量高达56B(8×7B)的 NatureLM 模型。同时,LOGOS在生成小分子的药物相似性(QED)和合成可行性(SAS)上均大幅领先依赖3D坐标的扩散模型(如TargetDiff)。

2. 逆合成预测

给定目标分子,预测其合成前体。在 USPTO-50K 标准基准上,LOGOS-8B 的 Top-1 准确率达到了 74.8%,超越了包括 LocalRetro 在内的所有专用和通用大模型baseline,展现了极强的化学键断裂与重组逻辑推理能力。

3. 突破性的材料创新(MOF材料生成)

在金属有机框架(MOF)材料生成任务中,衡量模型"能否探索未见过的化学空间"的核心指标是新构建单元比例(NBB)。LOGOS-8B 在该指标上达到了 17.78% ,相较于领域顶尖的基线模型(MOFFlow-2,10.10%)提升了 76%

此外,LOGOS在蛋白质定向编辑(Hard Fitness任务得分0.93,提升174%)抗体CDR设计(AAR达79.82%)以及零3D结构依赖的口袋位点识别 等跨学科任务中,均拿到了匹配或超越领域专用方法的亮眼数据。


三、 探索实验的启示:为什么不用自然语言做交互界面?

在技术报告中,团队分享了几个非常关键的微调与消融实验结论,对未来 AI4S 基础模型的设计具有重要的参考价值:

  • 自然语言会稀释专业能力 :实验发现,在增量预训练阶段,若引入大量通用自然语言文本,模型在科学任务(如小分子生成)上的性能会随语言文本比例的增加而持续退化。在固定参数预算下,把容量留给本科学 modalities 效率更高。
  • LLM的深度序列逻辑可复用:尽管不适合直接输入自然语言,但如果全盘继承 LLM(如 Qwen3 或 Llama3.2)的 Transformer 骨干网络(Backbone)权重作为初始化,模型的收敛速度和最终泛化性能远超全随机初始化。这说明 LLM 训练出的"长程依赖捕捉"和"上下文推理"等底层逻辑,在科学序列上是完全通用的。
  • 多任务联合微调的协同效应 :将逆合成、药物生成、材料设计等数据混合进行联合 SFT 训练,其各项指标均优于独立任务单独微调。这意味着统一的语法打破了学科界限,化学反应中习得的断键规律,正向迁移到了药物分子的骨架搭建中,实现了"1+1>2"的协同效应。

四、 拥抱 LLM 成熟生态

对于工程落地而言,LOGOS 带来的最大隐形红利在于技术栈的并轨

以往的3D几何模型需要构建完全独立的推理和量化工程基建。而 LOGOS 由于采用了与通用 LLM 共享的自回归架构,开发者和科研团队可以直接将模型部署在 vLLM 等业界成熟的加速推理框架中,甚至直接复用现成的模型量化、分布式微调工具链。这极大地降低了 AI4S 在工业级落地时的工程成本。

阿里的这一开源工作提供了一个清晰的信号:AI for Science 的未来可能并不需要一套独立于大模型之外的封闭技术栈;相反,通过设计科学语法,将物质世界深度对齐到自回归语言空间中,用大模型的基础设施作为全学科科学创新的统一入口,是一条完全可行的道路。


项目相关资源: