
「【新智元导读】近日,谷歌与耶鲁大学联合发布的大模型 C2S-Scale,首次提出并验证了一项全新的「抗癌假设」。这一成果表明,大模型不仅能复现已知科学规律,还具备生成可验新科学假设的能力。」
刚刚,AI 科学应用领域又有一件大事发生!

谷歌与耶鲁大学的科学家们联合发布了一个大模型 Cell2Sentence-Scale 27B(C2S-Scale)。
该模型提出了一个关于癌细胞行为的全新假设,并在多次体外实验中得到验证。
这一发现引发广泛关注,它展示了人工智能模型生成原创科学假设的潜力,有望由此打开一条人类抗癌的新途径。
网友 prinz 在 x 平台上评价道,「这表明该模型并非简单重复已知事实,而是生成了新的、可验证的科学假设。」
C2S-Scale 基于 Google 的开源 Gemma 模型构建,训练语料涵盖超过 10 亿个 Token 的转录组数据、生物学文献与元数据,从而使其具备跨维度解析细胞行为的能力。
目前,耶鲁大学的研究团队正在推进 AI 在其他免疫学情境中生成更多科学预测,这一机制的出现有望加速抗癌新疗法的研发步伐。
研究人员还在 bioRxiv 上公开了论文的预印本,目前该论文正在经历「同行评审」阶段。

论文地址 www.biorxiv.org/content/10....

「AI 不是只懂复现」
「还可以提出全新发现」
C2S-Scale 是一款拥有 270 亿参数、旨在理解单个细胞「语言」的基础模型。
它建立在 Gemma 模型家族之上,将单细胞分析带入了一个全新的前沿阶段。
C2S-Scale 在科学预测方面的成果证明了研究团队在生物学模型上的一项假设:
生物学模型同样遵循明确的模型扩展规律------就像自然语言模型一样,模型越大,在生物学任务上表现越优。
这也引出一个更为关键的问题:更大的模型只是提升了已有能力,还是能够获得全新的推理能力?
模型扩展的真正潜力,在于催生新思路、揭示未知规律,而非仅限于性能的线性提升。
癌症免疫治疗的一大挑战在于许多肿瘤相对于免疫系统而言几乎都是「隐身」的。
让肿瘤「现身」的一个关键是通过抗原呈递(antigen presentation)让它们显示出能触发免疫反应的信号。
抗原呈递,是把病原体(比如病毒、肿瘤)的「可疑分子片段」(抗原)展示在细胞表面,让免疫细胞看到并识别,从而决定是否发动攻击。
研究人员赋予 C2S-Scale 这样的任务:让它寻找一种「条件性放大剂」,能够在「免疫环境阳性」(Immune-Context-Positive)情况下增强免疫信号。
这一任务需要模型具备复杂的条件推理能力,而这种能力正是大模型随着规模扩大所涌现的特性------较小模型无法捕捉这种依赖环境的效应。
为了实现这一点,研究人员设计了一个「双环境虚拟筛选」流程,以识别这种特定的协同效应。
该流程包括:
- 免疫环境阳性(Immune-Context-Positive):输入真实患者样本,保留肿瘤与免疫系统的交互,并维持低水平干扰素信号;
- 免疫环境中性(Immune-Context-Neutral):输入缺乏免疫背景的细胞系数据。
研究人员在以上两种环境中对超过 4000 种药物进行模拟,并要求模型预测哪些药物只会在免疫环境阳性条件下增强抗原呈递,从而更符合临床实际。
结果显示,约有 10%--30% 的药物在文献中已有报道,这验证了模型的可信度。
而其余候选则是从未被报道过的新发现,这意味着模型不仅复现了已知生物学现象,还发现了潜在的新型免疫协同药物。

「新里程碑」
「AI「抗癌假说」得到验证」
C2S-Scale 模型发现了激酶 CK2 抑制剂 silmitasertib(CX-4945)具有一种显著的「环境分化效应」:
仅在免疫信号活跃的环境中显著增强抗原呈递,而在免疫中性环境下几乎无效。
这一发现表明模型成功生成了具备实验可验证性的全新生物假设。
在后续的实验阶段,研究人员在人体神经内分泌细胞模型中测试了这一假设,实验显示:
- 单独使用 silmitasertib 对抗原呈递(MHC-I)影响不显著;
- 低剂量干扰素单独使用仅产生轻微效果;
- 联合使用两者则显著增强抗原呈递,使其提升约 50%。
这一结果证实模型预测的可靠性,并揭示出让肿瘤对免疫系统更易被识别的潜在新途径。
C2S-Scale 模型计算机模拟预测多次在体外实验中得到验证。
它成功识别出一种新的干扰素依赖性放大剂,揭示出让「冷肿瘤」变「热」的潜在新途径,为免疫治疗带来新的希望。
尽管该研究仍处于早期阶段,这一成果已为新型联合疗法的开发提供了实证依据,并开启了以大模型驱动的生物学发现新范式------科学假设的生成、筛选与验证将日益智能化、系统化。
目前,新的 C2S-Scale 27B 模型及其相关资源已在 Hugging Face 全面开放。

地址:huggingface.co/vandijklab/...
也可以在 GitHub 上访问其代码。

研究人员希望和更多的人共同探索上述工具,进一步拓展该项研究的成果,让大模型可以解读更多生命语言的奥秘,从而为医疗科技带来全新突破。
参考资料: