摘要
单细胞扰动研究面临双重异质性瓶颈:
(1)语义异质性------相同生物概念在不同数据集的元数据schema下不兼容;
(2)统计异质性------生物变异引发的分布偏移需要数据集专属的归纳偏置。
本文提出HarmonyCell端到端智能体框架,通过专属机制解决上述挑战:基于大语言模型(LLM)的语义统一器无需人工干预,自动将异构元数据映射为标准接口;自适应蒙特卡洛树搜索(MCTS)引擎在分层动作空间中构建最优统计归纳偏置的模型架构。在语义与分布偏移的各类扰动任务中验证,HarmonyCell对异构输入数据集的有效执行率达95%(通用智能体为0%),在严格的分布外评估中性能匹配甚至超越专家设计基线。该双轨协同机制无需数据集专属工程,即可实现规模化的自动化虚拟细胞建模。
#单细胞扰动建模 #语义异质性 #分布偏移 #虚拟细胞 #大语言模型 #蒙特卡洛树搜索 #自动化机器学习
引言

图 1 HarmonyCell的独特性
现有专用大语言模型智能体(如CellForge等)需刚性数据输入格式,通用智能体则缺乏生物知识。HarmonyCell可通过生物先验增强能力,同时解决数据异质性问题。
方法
统计异构求解器:基于分层动作空间的自适应MCTS

图 2 HarmonyCell架构
系统整合3大模块:
(1)基于LLM的语义统一器,将异构h5ad输入标准化;
(2)检索增强智能体,利用历史策略完成元初始化;
(3)由分层动作空间MCTS引导的执行器智能体(底部面板)。
该分层分解在完整执行前主动剪枝会引发错误「故障节点」的分支,显著提升搜索稳定性。运行失败会触发ReAct式调试循环,验证成功的流程会存入持久化知识库供后续复用。
表1 能力对比
通用智能体支持协同编码,但缺乏生物先验、模型探索与异构数据处理能力;专用细胞科学家智能体使用生物先验与模型探索,却仅适配标准化数据。HarmonyCell整合全部4项功能,可跨异构数据集完成端到端建模。

实验
语义异构求解器
表2 语义异构处理的优越性
通用编码智能体(AIDE、R&D Agent)在20次虚拟细胞建模实验中全部失败,即便提供详细人工指导仍无法处理异构数据;HarmonyCell实现95%成功率,凸显其在解决数据异质性、自动化预处理上的强大能力。

从异构到可扩展性:自动化数据统一

图 3 HarmonyCell成功处理语义异构并实现协同数据集扩展
对比基于单一来源Adamson、Replogle数据集训练的模型,与经HarmonyCell语义统一器校准的联合数据集训练模型的泛化性能。所有模型在统一的独立交叉验证协议下,于预留测试集完成评估。
统计异构下的泛化能力
表3 统计异构下离散数据集的性能
模型在具备不同统计异质性的数据集(未见扰动、未见细胞)上评估。HarmonyCell持续匹配或超越专家级基线性能,尤其在分布偏移下保持相关性(DeltaPCC)稳定。下划线为基线最优结果,加粗为HarmonyCell结果;↑代表数值越高性能越好,↓代表数值越低性能越好。

消融实验

图 4 消融实验:语义统一器的必要性
执行过程中,搭载语义统一器的HarmonyCell相比无该模块的智能体,工作流更稳定、错误更少。

图 5 消融实验:分层动作空间的必要性
相比无分层的消融智能体,HarmonyCell收敛速度更快、精度更高,有效超越当前最优专用基线模型。
案例研究:进化式架构设计

图 6 案例研究:Norman数据集的MCTS探索
每个节点内的数值代表该节点模型的DeltaPCC验证值。
详细总结

思维导图
核心能力对比

语义异构处理效果

参考
HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts
https://doi.org/10.48550/arXiv.2603.01396
注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。