上海AI Lab+复旦大学：双轨协同实现自动化虚拟细胞建模

Omics Pro2026-04-13 11:15

摘要

单细胞扰动研究面临双重异质性瓶颈：

（1）语义异质性------相同生物概念在不同数据集的元数据schema下不兼容；

（2）统计异质性------生物变异引发的分布偏移需要数据集专属的归纳偏置。

本文提出HarmonyCell端到端智能体框架，通过专属机制解决上述挑战：基于大语言模型（LLM）的语义统一器无需人工干预，自动将异构元数据映射为标准接口；自适应蒙特卡洛树搜索（MCTS）引擎在分层动作空间中构建最优统计归纳偏置的模型架构。在语义与分布偏移的各类扰动任务中验证，HarmonyCell对异构输入数据集的有效执行率达95%（通用智能体为0%），在严格的分布外评估中性能匹配甚至超越专家设计基线。该双轨协同机制无需数据集专属工程，即可实现规模化的自动化虚拟细胞建模。

gaozhangyang@ailab.org.cn

siqisun@fudan.edu.cn

#单细胞扰动建模 #语义异质性 #分布偏移 #虚拟细胞 #大语言模型 #蒙特卡洛树搜索 #自动化机器学习

引言

图 1 HarmonyCell的独特性

现有专用大语言模型智能体（如CellForge等）需刚性数据输入格式，通用智能体则缺乏生物知识。HarmonyCell可通过生物先验增强能力，同时解决数据异质性问题。

方法

统计异构求解器：基于分层动作空间的自适应MCTS

图 2 HarmonyCell架构

系统整合3大模块：

（1）基于LLM的语义统一器，将异构h5ad输入标准化；

（2）检索增强智能体，利用历史策略完成元初始化；

（3）由分层动作空间MCTS引导的执行器智能体（底部面板）。

该分层分解在完整执行前主动剪枝会引发错误「故障节点」的分支，显著提升搜索稳定性。运行失败会触发ReAct式调试循环，验证成功的流程会存入持久化知识库供后续复用。

表1 能力对比

通用智能体支持协同编码，但缺乏生物先验、模型探索与异构数据处理能力；专用细胞科学家智能体使用生物先验与模型探索，却仅适配标准化数据。HarmonyCell整合全部4项功能，可跨异构数据集完成端到端建模。

实验

语义异构求解器

表2 语义异构处理的优越性

通用编码智能体（AIDE、R&D Agent）在20次虚拟细胞建模实验中全部失败，即便提供详细人工指导仍无法处理异构数据；HarmonyCell实现95%成功率，凸显其在解决数据异质性、自动化预处理上的强大能力。

从异构到可扩展性：自动化数据统一

图 3 HarmonyCell成功处理语义异构并实现协同数据集扩展

对比基于单一来源Adamson、Replogle数据集训练的模型，与经HarmonyCell语义统一器校准的联合数据集训练模型的泛化性能。所有模型在统一的独立交叉验证协议下，于预留测试集完成评估。

统计异构下的泛化能力

表3 统计异构下离散数据集的性能

模型在具备不同统计异质性的数据集（未见扰动、未见细胞）上评估。HarmonyCell持续匹配或超越专家级基线性能，尤其在分布偏移下保持相关性（DeltaPCC）稳定。下划线为基线最优结果，加粗为HarmonyCell结果；↑代表数值越高性能越好，↓代表数值越低性能越好。

消融实验

图 4 消融实验：语义统一器的必要性

执行过程中，搭载语义统一器的HarmonyCell相比无该模块的智能体，工作流更稳定、错误更少。

图 5 消融实验：分层动作空间的必要性

相比无分层的消融智能体，HarmonyCell收敛速度更快、精度更高，有效超越当前最优专用基线模型。

案例研究：进化式架构设计

图 6 案例研究：Norman数据集的MCTS探索

每个节点内的数值代表该节点模型的DeltaPCC验证值。

详细总结

思维导图

核心能力对比

语义异构处理效果

参考

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

https://doi.org/10.48550/arXiv.2603.01396

260302HarmonyCell.pdf

注：AI辅助创作，如有错误欢迎指出。内容仅供参考，不构成任何建议。

上一篇：Godot游戏练习01-第27节-升级选项选择生效

下一篇：智能体能力持续扩展，文件管理与模型能力增强，1Panel v2.1.8版本发布

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚