上海AI Lab+复旦大学:双轨协同实现自动化虚拟细胞建模

摘要

单细胞扰动研究面临双重异质性瓶颈:

(1)语义异质性------相同生物概念在不同数据集的元数据schema下不兼容;

(2)统计异质性------生物变异引发的分布偏移需要数据集专属的归纳偏置。

本文提出HarmonyCell端到端智能体框架,通过专属机制解决上述挑战:基于大语言模型(LLM)的语义统一器无需人工干预,自动将异构元数据映射为标准接口;自适应蒙特卡洛树搜索(MCTS)引擎在分层动作空间中构建最优统计归纳偏置的模型架构。在语义与分布偏移的各类扰动任务中验证,HarmonyCell对异构输入数据集的有效执行率达95%(通用智能体为0%),在严格的分布外评估中性能匹配甚至超越专家设计基线。该双轨协同机制无需数据集专属工程,即可实现规模化的自动化虚拟细胞建模。

gaozhangyang@ailab.org.cn

siqisun@fudan.edu.cn

#单细胞扰动建模 #语义异质性 #分布偏移 #虚拟细胞 #大语言模型 #蒙特卡洛树搜索 #自动化机器学习

引言

1 HarmonyCell的独特性

现有专用大语言模型智能体(如CellForge等)需刚性数据输入格式,通用智能体则缺乏生物知识。HarmonyCell可通过生物先验增强能力,同时解决数据异质性问题。

方法

统计异构求解器:基于分层动作空间的自适应MCTS

2 HarmonyCell架构

系统整合3大模块:

(1)基于LLM的语义统一器,将异构h5ad输入标准化;

(2)检索增强智能体,利用历史策略完成元初始化;

(3)由分层动作空间MCTS引导的执行器智能体(底部面板)。

该分层分解在完整执行前主动剪枝会引发错误「故障节点」的分支,显著提升搜索稳定性。运行失败会触发ReAct式调试循环,验证成功的流程会存入持久化知识库供后续复用。

表1 能力对比

通用智能体支持协同编码,但缺乏生物先验、模型探索与异构数据处理能力;专用细胞科学家智能体使用生物先验与模型探索,却仅适配标准化数据。HarmonyCell整合全部4项功能,可跨异构数据集完成端到端建模。

实验

语义异构求解器

表2 语义异构处理的优越性

通用编码智能体(AIDE、R&D Agent)在20次虚拟细胞建模实验中全部失败,即便提供详细人工指导仍无法处理异构数据;HarmonyCell实现95%成功率,凸显其在解决数据异质性、自动化预处理上的强大能力。

从异构到可扩展性:自动化数据统一

3 HarmonyCell成功处理语义异构并实现协同数据集扩展

对比基于单一来源Adamson、Replogle数据集训练的模型,与经HarmonyCell语义统一器校准的联合数据集训练模型的泛化性能。所有模型在统一的独立交叉验证协议下,于预留测试集完成评估。

统计异构下的泛化能力

表3 统计异构下离散数据集的性能

模型在具备不同统计异质性的数据集(未见扰动、未见细胞)上评估。HarmonyCell持续匹配或超越专家级基线性能,尤其在分布偏移下保持相关性(DeltaPCC)稳定。下划线为基线最优结果,加粗为HarmonyCell结果;↑代表数值越高性能越好,↓代表数值越低性能越好。

消融实验

4 消融实验:语义统一器的必要性

执行过程中,搭载语义统一器的HarmonyCell相比无该模块的智能体,工作流更稳定、错误更少。

5 消融实验:分层动作空间的必要性

相比无分层的消融智能体,HarmonyCell收敛速度更快、精度更高,有效超越当前最优专用基线模型。

案例研究:进化式架构设计

6 案例研究:Norman数据集的MCTS探索

每个节点内的数值代表该节点模型的DeltaPCC验证值。

详细总结

思维导图

核心能力对比

语义异构处理效果

参考

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

https://doi.org/10.48550/arXiv.2603.01396

260302HarmonyCell.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

相关推荐
武子康2 小时前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
东坡肘子3 小时前
Swift 还让你 Excited 吗?-- 肘子的 Swift 周报 #141
人工智能·swiftui·swift
nujnewnehc3 小时前
不会 py, 用 ai 写了个游戏辅助的感受
人工智能·游戏
ZhengEnCi12 小时前
09c-斯坦福CS336作业二:系统与分布式训练
人工智能
阿里云大数据AI技术12 小时前
用 SQL 解锁多模态数据分析:Hologres 让图片、语音、视频变成结构化洞察
人工智能
阿里云大数据AI技术12 小时前
EMR Serverless StarRocks 湖仓多模态检索:One SQL on One Data,实现全文 + 标量 + 向量三路混合检索
人工智能
冬奇Lab14 小时前
Skill 系列(02):Skill 安全风险——三类攻击面的实战测试
人工智能·安全·开源
冬奇Lab14 小时前
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
人工智能·开源·claude
米小虾14 小时前
智谱港股盘中市值突破万亿港元!GLM-5.2 开源引爆国产 AI 价值重估
人工智能·chatglm (智谱)
阿里云大数据AI技术14 小时前
义乌小商品城基于MaxFrame AI Function的亿级AI 数据产线提速之路
人工智能