Cell | 密歇根州立大学团队利用深度学习从头设计药物,实现逆转疾病相关转录表型
疾病通常伴随着特定的基因表达异常,这些转录表型反映了细胞状态从正常到病理状态的改变。如果能够找到可以逆转这些异常表达模式的化合物,就有可能恢复正常的细胞功能,从而实现疾病治疗。然而,传统药物发现流程依赖高通量实验筛选和逐步优化,成本高、周期长,而且难以在庞大的化学空间中系统寻找候选分子。
密歇根州立大学陈斌教授团等联合开发了一种基于深度学习的药物发现框架,该方法能够预测化合物引起的基因表达变化,并将这些变化与疾病相关的转录特征进行比较,从而识别具有潜在治疗作用的分子。在此基础上,该框架还可以结合生成模型,从头设计新的化合物,并通过预测模型筛选出能够有效逆转疾病转录特征的候选药物。研究结果表明,该方法不仅能够在已有化合物库中筛选出有效分子,还可以通过分子设计进一步提高活性,并在细胞和动物实验中验证其治疗效果。

疾病状态通常表现为特定的基因表达改变,例如炎症、纤维化或肿瘤细胞的异常转录程序。若能够找到可以使这些异常表达恢复正常的化合物,则有可能实现疾病治疗。因此,基于转录特征匹配的药物发现方法逐渐受到关注。
传统的药物筛选方法需要在实验中逐个测试化合物,成本高且效率低。近年来,公共数据库中积累了大量化合物处理后的基因表达数据,使得研究人员可以利用计算方法预测药物对细胞的影响。
机器学习模型能够学习化合物结构与转录变化之间的关系,从而在无需实验的情况下预测新分子的作用。然而,现有方法大多局限于已有化合物,难以进行从头设计,并且对复杂疾病的预测能力有限。
研究人员提出利用深度学习建立统一框架,使模型能够同时完成药物再定位、活性预测和分子生成,从而实现自动化的药物发现流程。

图1:GPS框架及其性能评估。
方法
研究人员构建了一个深度学习平台,用于预测化合物诱导的基因表达变化,并评估其是否能够逆转疾病相关的转录特征。
模型首先学习化合物结构与基因表达变化之间的关系,然后将预测结果与疾病特征进行比较,计算反转程度。反转程度越高,说明该化合物越可能具有治疗效果。
在此基础上,研究人员进一步构建生成模型,用于在化学空间中搜索新的候选分子,并利用预测模型对生成分子进行筛选,从而实现从头设计具有目标转录效应的化合物。
该流程可以用于大规模虚拟筛选,也可以用于优化已有候选分子的结构。

图2:GPS推断的化合物转录组特征所揭示的生物学信息。
结果
利用转录特征反转筛选候选药物
研究人员首先在已知疾病模型中测试该方法。通过比较疾病相关基因表达特征与化合物诱导的表达变化,模型能够识别出可能具有治疗作用的候选分子。
在多个疾病数据集中,该方法成功找到了已知有效药物,并预测出新的潜在候选。

图3: 利用GPS预测的化合物表达谱验证基因表达反转效果。
大规模虚拟筛选与命中化合物验证
研究人员将模型应用于大规模化合物数据库,筛选出具有高反转评分的候选分子。
随后在细胞实验中验证这些化合物,结果表明多个候选能够显著改变疾病相关基因表达,并抑制细胞异常增殖。这些结果证明模型预测具有较高可靠性。

图4: 基于GPS的大规模抗肝细胞癌候选药物筛选及命中到先导化合物优化。
从头生成新分子并进行结构优化
为了进一步提高活性,研究人员使用生成模型设计新的化合物,并通过预测模型评估其转录效应。
在优化过程中,模型逐步生成具有更高反转评分的分子,并在实验中验证其活性。通过这一过程,研究人员获得了比初始筛选分子更有效的候选药物。

图5: 用于肝细胞癌药物发现和作用机制解析的SGAR分析。
在动物模型中的验证
研究人员进一步在疾病动物模型中测试优化后的候选分子。结果显示,该化合物能够显著抑制肿瘤生长,并恢复部分异常基因表达。
转录组分析表明,治疗后细胞表达模式向正常状态靠近,验证了转录特征反转策略的有效性。

图6: 基于细胞类型特异性表达特征反转的IPF药物发现。
讨论
本研究提出了一种以转录表型为核心的药物发现框架,通过深度学习预测化合物对基因表达的影响,并以此为依据筛选和设计治疗分子。
与传统基于靶点的药物发现方法不同,该策略直接针对细胞状态进行优化,因此更适用于复杂疾病,例如癌症和纤维化等多基因调控疾病。
研究人员认为,将基因表达预测与生成模型结合,可以实现自动化的药物设计流程,从大规模虚拟筛选到分子优化再到实验验证,大大提高药物发现效率。
未来,该方法有望与更大规模的转录组数据和生成模型结合,用于发现更多具有临床潜力的治疗分子,并推动人工智能驱动的药物研发进入新的阶段。
参考资料
Xing, J., Tan, M., Leshchiner, D., Sun, M., Abdelgied, M., Huang, L., Paithankar, S., Uhl, K., Shankar, R., Lisabeth, E. and Aleiwi, B., 2026. Deep-learning-based de novo discovery and design of therapeutics that reverse disease-associated transcriptional phenotypes. Cell.