文章目录
- 名词解释
-
-
- [BRICS decomposition](#BRICS decomposition)
- [Gene expression difference values](#Gene expression difference values)
- Geneformer
- signature
- [cell line](#cell line)
- [cell line embedding](#cell line embedding)
- [Transformer decoder](#Transformer decoder)
-
- Question
-
-
- Q1:Geneformer如何处理13743x978的基因表达谱
- Q2:Transformer怎么知道条件和结果之间的关联
- Q3:基因与细胞系之间的关系
- [Q4:hallmark pathway和978个基因是否真的有关联](#Q4:hallmark pathway和978个基因是否真的有关联)
-
- 总结失败原因
名词解释
BRICS decomposition
BRICS分解。将SMILES分解为片段
Gene expression difference values
基因表达差异值。它表示某个药物、某种扰动、某个细胞状态下,哪些基因变高了,哪些基因变低了
Geneformer
基因语言模型。把基因表达信息转换成模型能理解的数字向量。
signature
样本 = 药物扰动 = signature
cell line
指细胞系。比如 MCF7、A549、PC3。同一个药物在不同细胞系上可能产生不同反应,所以模型需要知道这是哪一种细胞?
这份数据集中,13743个样本来自16个不同细胞系。
HCC515
HA1E
NPC
ASC
THP1
A549
A375
HT29
HEPG2
MCF10A
MCF7
MDAMB231
HELA
PC3
VCAP
YAPC
cell line embedding
把"细胞系名称"也变成一个向量,作为额外条件加入模型。所以模型用到的生物条件是:基因表达条件 + 细胞系条件
Transformer decoder
根据已经生成的片段 + 基因条件,预测下一个片段。例如:[START] 片段1 片段2 → 预测下一个分子片段。
Question
Q1:Geneformer如何处理13743x978的基因表达谱
对于每一个样本,1 x 978,根据基因表达值排序之后,再将gene symbol(基因名)转为token id,所以现在变成了 1 x 978的token id。
如果是 13743 个样本,输入就变成 13743 x 978 的token id(不再是表达值)。经过 Geneformer 后变成:13743 × 978 × d
其中:13743 = 样本数;978 = 每个样本里的基因 token 数;d = 每个 gene token 的向量维度
Q2:Transformer怎么知道条件和结果之间的关联
训练数据提供:化合物SMILES、扰动后的基因表达谱
生成时,从START开始,在当前细胞状态下生成片段
Q3:基因与细胞系之间的关系
13743个signature中,并不是都来自MCF7细胞系,而是来自16种细胞系。也就是同一种药物(SMILES表示)在不同细胞上的作用结果。
Q4:hallmark pathway和978个基因是否真的有关联
总结失败原因
- Hallmark pathway 覆盖不全。
50 个 Hallmark pathways 只覆盖了 523/978 个基因,接近一半基因没有进入 pathway score,所以 PathPrompt 可能丢掉了大量 gene-level 信息。
- 实验初期未做想法验证