PathPrompt失败原因总结

向阳花花花花2026-05-14 16:32

文章目录

名词解释
- - [BRICS decomposition](#BRICS decomposition)
  - [Gene expression difference values](#Gene expression difference values)
  - Geneformer
  - signature
  - [cell line](#cell line)
  - [cell line embedding](#cell line embedding)
  - [Transformer decoder](#Transformer decoder)
Question
- - Q1:Geneformer如何处理13743x978的基因表达谱
  - Q2:Transformer怎么知道条件和结果之间的关联
  - Q3:基因与细胞系之间的关系
  - [Q4:hallmark pathway和978个基因是否真的有关联](#Q4:hallmark pathway和978个基因是否真的有关联)
总结失败原因

名词解释

BRICS decomposition

BRICS分解。将SMILES分解为片段

Gene expression difference values

基因表达差异值。它表示某个药物、某种扰动、某个细胞状态下，哪些基因变高了，哪些基因变低了

Geneformer

基因语言模型。把基因表达信息转换成模型能理解的数字向量。

signature

样本 = 药物扰动 = signature

cell line

指细胞系。比如 MCF7、A549、PC3。同一个药物在不同细胞系上可能产生不同反应，所以模型需要知道这是哪一种细胞？

这份数据集中，13743个样本来自16个不同细胞系。

HCC515

HA1E

NPC

ASC

THP1

A549

A375

HT29

HEPG2

MCF10A

MCF7

MDAMB231

HELA

PC3

VCAP

YAPC

cell line embedding

把"细胞系名称"也变成一个向量，作为额外条件加入模型。所以模型用到的生物条件是：基因表达条件 + 细胞系条件

Transformer decoder

根据已经生成的片段 + 基因条件，预测下一个片段。例如： $START$ 片段1 片段2 → 预测下一个分子片段。

Question

Q1:Geneformer如何处理13743x978的基因表达谱

对于每一个样本，1 x 978，根据基因表达值排序之后，再将gene symbol（基因名）转为token id，所以现在变成了 1 x 978的token id。

如果是 13743 个样本，输入就变成 13743 x 978 的token id（不再是表达值）。经过 Geneformer 后变成：13743 × 978 × d

其中：13743 = 样本数；978 = 每个样本里的基因 token 数；d = 每个 gene token 的向量维度

Q2:Transformer怎么知道条件和结果之间的关联

训练数据提供：化合物SMILES、扰动后的基因表达谱

生成时，从START开始，在当前细胞状态下生成片段

Q3:基因与细胞系之间的关系

13743个signature中，并不是都来自MCF7细胞系，而是来自16种细胞系。也就是同一种药物（SMILES表示）在不同细胞上的作用结果。

Q4:hallmark pathway和978个基因是否真的有关联

总结失败原因

Hallmark pathway 覆盖不全。

50 个 Hallmark pathways 只覆盖了 523/978 个基因，接近一半基因没有进入 pathway score，所以 PathPrompt 可能丢掉了大量 gene-level 信息。

实验初期未做想法验证