
来源于综述:A comprehensive survey of genome language models in****bioinformatics
有什么任务
1. Regulatory element recognition:调控元件识别

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Operon boundary prediction | 操纵子边界预测 | 通常二分类/边界检测 | 判断两个相邻基因之间是否为 operon 边界。 |
| Regulatory vs. background DNA | 调控 DNA 与背景 DNA 区分 | 二分类 | 判断一段 DNA 是否为调控区域,还是普通背景序列。 |
| Enhancer identification | 增强子识别 | 二分类/序列标注 | 判断序列是否为 enhancer。 |
| Promoter identification | 启动子识别 | 二分类/序列标注 | 判断序列是否为 promoter。 |
| Insulator identification | 绝缘子识别 | 二分类 | 判断序列是否为 insulator。 |
| Silencer identification | 沉默子识别 | 二分类 | 判断序列是否为 silencer。 |
| Enhancer type classification | 增强子类型分类 | 多分类 | 把 enhancer 分成 active、typical、super、poised/pruned 等类型。 |
| Splice donor/acceptor site identification | 剪接供体/受体位点识别 | 多分类或序列标注 | 识别 donor site、acceptor site 或非剪接位点。 |
2. Quantitative regulatory activity prediction:定量调控活性预测

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Enhancer activity prediction | 增强子活性预测 | 回归 | 预测 enhancer 的活性强弱,如 reporter activity。 |
| Terminator activity prediction | 终止子活性预测 | 回归 | 预测 terminator 对转录终止的调控强度。 |
| Promoter activity prediction | 启动子活性预测 | 回归 | 预测 promoter 驱动表达的连续活性值。 |
| Promoter strength classification | 启动子强度分类 | 有序多分类 | 分为 weak、medium、strong 等强度等级。 |
| Endogenous gene expression prediction | 内源基因表达预测 | 回归/多输出回归 | 根据调控序列预测 mRNA 或 protein abundance。 |
| 3′ UTR regulatory activity prediction | 3′ UTR 调控活性预测 | 回归 | 预测 3′ UTR 对 mRNA 稳定性、翻译或蛋白丰度的影响。 |
| Condition-specific expression across species | 跨物种条件特异表达预测 | 条件回归/多任务回归 | 输入条件标签、物种标签和 cis-element 序列,预测对应表达水平。 |
3. Variant effect prediction:变异效应预测

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Variant effect on activity | 变异对活性的影响预测 | 回归/打分 | 比较 reference sequence 和 variant sequence,预测变异导致的活性变化。 |
| Variant deleteriousness classification | 变异有害性分类 | 二分类/多分类 | 判断 SNV 或 indel 是 pathogenic/deleterious 还是 benign。 |
论文中说明,变异效应预测通常比较有无变异的序列,以估计其对转录、剪接或染色质可及性等分子表型的影响。
4. Chromatin and protein interaction modeling:染色质与蛋白互作建模

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Histone mark presence | 组蛋白修饰存在性预测 | 多标签二分类 | 对多个 histone marks 分别判断是否存在。 |
| Pioneer TF occupancy prediction | 先锋转录因子占据预测 | 回归/二分类 | 预测 pioneer TF 在某段 DNA 上的占据强度或是否占据。 |
| Chromatin accessibility prediction | 染色质可及性预测 | 二分类/信号回归 | 判断 chromatin 是 open 还是 closed,或预测 ATAC/DNase 信号强度。 |
| TF binding site prediction | 转录因子结合位点预测 | 多标签二分类/序列标注 | 判断某 TF 是否结合某段序列,或定位结合位点。 |
| Enhancer--Promoter interaction prediction | 增强子--启动子互作预测 | 二分类/链接预测 | 判断某 enhancer 和 promoter 是否发生功能性互作。 |
这类任务是从序列预测 DNA--protein、RNA--protein 互作以及表观遗传状态,包括 TF binding、chromatin accessibility、histone mark 和 enhancer--promoter interaction。
5. Molecular modification prediction:分子修饰预测

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| 5mC/5hmC DNA methylation site detection | 5mC/5hmC DNA 甲基化位点检测 | 二分类/多分类 | 判断某胞嘧啶位点是否发生 5mC 或 5hmC 修饰。 |
| 6mA DNA methylation site detection | 6mA DNA 甲基化位点检测 | 二分类 | 判断腺嘌呤位点是否为 6mA 修饰。 |
| 4mC DNA methylation site detection | 4mC DNA 甲基化位点检测 | 二分类 | 判断胞嘧啶位点是否为 4mC 修饰。 |
| RNA modification site prediction | RNA 修饰位点预测 | 二分类/多标签分类 | 预测 m6A、m5C、m1A 等 RNA 修饰位点。 |
论文提到分子修饰预测包括 5mC、6mA、4mC、5hmC 以及 RNA m6A 等位点特异化学修饰。
6. Taxonomic and gene classification:分类与基因注释

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Species/lineage classification | 物种/谱系分类 | 多分类/层级分类 | 判断序列来自哪个 species、genus 或 lineage。 |
| Coding potential prediction | 编码潜能预测 | 二分类/打分 | 判断转录本或序列是否具有蛋白编码潜能。 |
| Coding vs. intergenic region | 编码区与基因间区识别 | 二分类/序列标注 | 判断片段属于 coding region 还是 intergenic region。 |
| Gene essentiality prediction | 基因必需性预测 | 二分类/回归 | 判断基因是否 essential,或预测 fitness/essentiality score。 |
| Gene biotype classification | 基因生物类型分类 | 多分类 | 区分 protein-coding、lncRNA、pseudogene 等。 |
| Covid-variant classification | 新冠变异株分类 | 多分类 | 将病毒序列分为 Alpha、Delta、Omicron 等变异株。 |
| lncRNA vs. mRNA identification | lncRNA 与 mRNA 识别 | 二分类 | 判断转录本是 lncRNA 还是 mRNA。 |
| ncRNA class classification | 非编码 RNA 类别分类 | 多分类 | 区分 tRNA、lncRNA、miRNA 等 ncRNA 类别。 |
论文将这类任务概括为 organism-level 和 gene-level 注释:前者做物种/谱系分类,后者做 coding/non-coding、gene biotype 等分类。
7. Generative sequence design:生成式序列设计

| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| Artificial genome sequence generation | 人工基因组序列生成 | 条件生成 | 按物种标签、GC 含量、序列长度等约束生成 synthetic genome。 |
| Promoter sequence generation | 启动子序列生成 | 条件生成 | 按目标表达水平、细胞类型或物种标签生成 promoter。 |
| Enhancer sequence generation | 增强子序列生成 | 条件生成 | 按目标 enhancer activity、细胞类型或靶 promoter 生成 enhancer。 |
论文中把这类任务定义为生成满足明确功能约束的新 DNA/RNA 序列,例如指定 promoter strength、protein-coding capacity 或 species label。
8. RNA-specific structure and expression tasks:RNA 特异结构与表达任务



| 英文任务 | 中文名 | 任务类型 | 简单说明 |
|---|---|---|---|
| RBP binding site prediction | RNA 结合蛋白结合位点预测 | 二分类/多标签分类 | 判断某 RNA 片段是否被特定 RBP 结合。 |
| RNA--RNA interaction prediction | RNA--RNA 互作预测 | 二分类/配对预测 | 判断 miRNA--mRNA 等 RNA 对是否互作。 |
| mRNA expression level prediction | mRNA 表达水平预测 | 回归 | 预测 mRNA abundance 或 expression level。 |
| mRNA degradation prediction | mRNA 降解速率预测 | 回归 | 预测 mRNA degradation rate,如 k_decay。 |
| mRNA half-life prediction | mRNA 半衰期预测 | 回归 | 预测 mRNA 的 t1/2。 |
| Splice donor/acceptor site identification | 剪接供体/受体位点识别 | 多分类/序列标注 | 在 RNA/转录本语境中识别 donor 和 acceptor splice sites。 |
| 5′ UTR ribosome load prediction | 5′ UTR 核糖体负载预测 | 回归 | 预测 5′ UTR 对 ribosome loading 的影响。 |
| Branchpoint prediction | 剪接分支点预测 | 二分类/序列标注 | 识别 pre-mRNA 剪接中的 branchpoint。 |
| RNA secondary structure prediction | RNA 二级结构预测 | 结构预测 | 预测 base-pairing、dot-bracket 或 base-pair matrix。 |
| RNA tertiary contact-map prediction | RNA 三级接触图预测 | 结构预测/矩阵二分类 | 预测核苷酸之间是否形成空间接触。 |
| RNA tertiary distance-map prediction | RNA 三级距离图预测 | 结构回归 | 预测核苷酸两两之间的空间距离。 |
| mRNA translation efficiency prediction | mRNA 翻译效率预测 | 回归 | 预测 translation efficiency。 |
| Translation initiation site recognition | 翻译起始位点识别 | 二分类/多分类/序列标注 | 识别 start codon 或真实 translation initiation site。 |
| ncRNA class classification | 非编码 RNA 类别分类 | 多分类 | 区分不同 ncRNA 类型。 |
| Internal ribosome entry site identification | 内部核糖体进入位点识别 | 二分类 | 判断序列是否为 IRES。 |
| Protein expression level prediction | 蛋白表达水平预测 | 回归 | 根据 RNA/CDS/UTR 序列预测 protein abundance。 |
| Protein expression class prediction | 蛋白表达等级分类 | 多分类/有序分类 | 分为 high、medium、low 等表达等级。 |
| Reporter gene luciferase RLU prediction | 报告基因荧光素酶 RLU 预测 | 回归 | 预测 reporter assay 中的 luciferase relative light unit。 |
论文中说明,RNA-focused 任务包括 RNA 二级/三级结构、稳定性、5′ UTR ribosome load、translation efficiency 等;结构任务通常输出 base-pair probability matrix、dot-bracket 或距离/接触图,表达和翻译相关任务多为回归。
benchmark



代表性模型


