【Bib 2026】基因最新综述(有什么任务、benchmark、代表性模型)

来源于综述:A comprehensive survey of genome language models in****bioinformatics

有什么任务

1. Regulatory element recognition:调控元件识别

英文任务 中文名 任务类型 简单说明
Operon boundary prediction 操纵子边界预测 通常二分类/边界检测 判断两个相邻基因之间是否为 operon 边界。
Regulatory vs. background DNA 调控 DNA 与背景 DNA 区分 二分类 判断一段 DNA 是否为调控区域,还是普通背景序列。
Enhancer identification 增强子识别 二分类/序列标注 判断序列是否为 enhancer。
Promoter identification 启动子识别 二分类/序列标注 判断序列是否为 promoter。
Insulator identification 绝缘子识别 二分类 判断序列是否为 insulator。
Silencer identification 沉默子识别 二分类 判断序列是否为 silencer。
Enhancer type classification 增强子类型分类 多分类 把 enhancer 分成 active、typical、super、poised/pruned 等类型。
Splice donor/acceptor site identification 剪接供体/受体位点识别 多分类或序列标注 识别 donor site、acceptor site 或非剪接位点。

2. Quantitative regulatory activity prediction:定量调控活性预测

英文任务 中文名 任务类型 简单说明
Enhancer activity prediction 增强子活性预测 回归 预测 enhancer 的活性强弱,如 reporter activity。
Terminator activity prediction 终止子活性预测 回归 预测 terminator 对转录终止的调控强度。
Promoter activity prediction 启动子活性预测 回归 预测 promoter 驱动表达的连续活性值。
Promoter strength classification 启动子强度分类 有序多分类 分为 weak、medium、strong 等强度等级。
Endogenous gene expression prediction 内源基因表达预测 回归/多输出回归 根据调控序列预测 mRNA 或 protein abundance。
3′ UTR regulatory activity prediction 3′ UTR 调控活性预测 回归 预测 3′ UTR 对 mRNA 稳定性、翻译或蛋白丰度的影响。
Condition-specific expression across species 跨物种条件特异表达预测 条件回归/多任务回归 输入条件标签、物种标签和 cis-element 序列,预测对应表达水平。

3. Variant effect prediction:变异效应预测

英文任务 中文名 任务类型 简单说明
Variant effect on activity 变异对活性的影响预测 回归/打分 比较 reference sequence 和 variant sequence,预测变异导致的活性变化。
Variant deleteriousness classification 变异有害性分类 二分类/多分类 判断 SNV 或 indel 是 pathogenic/deleterious 还是 benign。

论文中说明,变异效应预测通常比较有无变异的序列,以估计其对转录、剪接或染色质可及性等分子表型的影响。

4. Chromatin and protein interaction modeling:染色质与蛋白互作建模

英文任务 中文名 任务类型 简单说明
Histone mark presence 组蛋白修饰存在性预测 多标签二分类 对多个 histone marks 分别判断是否存在。
Pioneer TF occupancy prediction 先锋转录因子占据预测 回归/二分类 预测 pioneer TF 在某段 DNA 上的占据强度或是否占据。
Chromatin accessibility prediction 染色质可及性预测 二分类/信号回归 判断 chromatin 是 open 还是 closed,或预测 ATAC/DNase 信号强度。
TF binding site prediction 转录因子结合位点预测 多标签二分类/序列标注 判断某 TF 是否结合某段序列,或定位结合位点。
Enhancer--Promoter interaction prediction 增强子--启动子互作预测 二分类/链接预测 判断某 enhancer 和 promoter 是否发生功能性互作。

这类任务是从序列预测 DNA--protein、RNA--protein 互作以及表观遗传状态,包括 TF binding、chromatin accessibility、histone mark 和 enhancer--promoter interaction。

5. Molecular modification prediction:分子修饰预测

英文任务 中文名 任务类型 简单说明
5mC/5hmC DNA methylation site detection 5mC/5hmC DNA 甲基化位点检测 二分类/多分类 判断某胞嘧啶位点是否发生 5mC 或 5hmC 修饰。
6mA DNA methylation site detection 6mA DNA 甲基化位点检测 二分类 判断腺嘌呤位点是否为 6mA 修饰。
4mC DNA methylation site detection 4mC DNA 甲基化位点检测 二分类 判断胞嘧啶位点是否为 4mC 修饰。
RNA modification site prediction RNA 修饰位点预测 二分类/多标签分类 预测 m6A、m5C、m1A 等 RNA 修饰位点。

论文提到分子修饰预测包括 5mC、6mA、4mC、5hmC 以及 RNA m6A 等位点特异化学修饰。

6. Taxonomic and gene classification:分类与基因注释

英文任务 中文名 任务类型 简单说明
Species/lineage classification 物种/谱系分类 多分类/层级分类 判断序列来自哪个 species、genus 或 lineage。
Coding potential prediction 编码潜能预测 二分类/打分 判断转录本或序列是否具有蛋白编码潜能。
Coding vs. intergenic region 编码区与基因间区识别 二分类/序列标注 判断片段属于 coding region 还是 intergenic region。
Gene essentiality prediction 基因必需性预测 二分类/回归 判断基因是否 essential,或预测 fitness/essentiality score。
Gene biotype classification 基因生物类型分类 多分类 区分 protein-coding、lncRNA、pseudogene 等。
Covid-variant classification 新冠变异株分类 多分类 将病毒序列分为 Alpha、Delta、Omicron 等变异株。
lncRNA vs. mRNA identification lncRNA 与 mRNA 识别 二分类 判断转录本是 lncRNA 还是 mRNA。
ncRNA class classification 非编码 RNA 类别分类 多分类 区分 tRNA、lncRNA、miRNA 等 ncRNA 类别。

论文将这类任务概括为 organism-level 和 gene-level 注释:前者做物种/谱系分类,后者做 coding/non-coding、gene biotype 等分类。

7. Generative sequence design:生成式序列设计

英文任务 中文名 任务类型 简单说明
Artificial genome sequence generation 人工基因组序列生成 条件生成 按物种标签、GC 含量、序列长度等约束生成 synthetic genome。
Promoter sequence generation 启动子序列生成 条件生成 按目标表达水平、细胞类型或物种标签生成 promoter。
Enhancer sequence generation 增强子序列生成 条件生成 按目标 enhancer activity、细胞类型或靶 promoter 生成 enhancer。

论文中把这类任务定义为生成满足明确功能约束的新 DNA/RNA 序列,例如指定 promoter strength、protein-coding capacity 或 species label。

8. RNA-specific structure and expression tasks:RNA 特异结构与表达任务

英文任务 中文名 任务类型 简单说明
RBP binding site prediction RNA 结合蛋白结合位点预测 二分类/多标签分类 判断某 RNA 片段是否被特定 RBP 结合。
RNA--RNA interaction prediction RNA--RNA 互作预测 二分类/配对预测 判断 miRNA--mRNA 等 RNA 对是否互作。
mRNA expression level prediction mRNA 表达水平预测 回归 预测 mRNA abundance 或 expression level。
mRNA degradation prediction mRNA 降解速率预测 回归 预测 mRNA degradation rate,如 k_decay。
mRNA half-life prediction mRNA 半衰期预测 回归 预测 mRNA 的 t1/2。
Splice donor/acceptor site identification 剪接供体/受体位点识别 多分类/序列标注 在 RNA/转录本语境中识别 donor 和 acceptor splice sites。
5′ UTR ribosome load prediction 5′ UTR 核糖体负载预测 回归 预测 5′ UTR 对 ribosome loading 的影响。
Branchpoint prediction 剪接分支点预测 二分类/序列标注 识别 pre-mRNA 剪接中的 branchpoint。
RNA secondary structure prediction RNA 二级结构预测 结构预测 预测 base-pairing、dot-bracket 或 base-pair matrix。
RNA tertiary contact-map prediction RNA 三级接触图预测 结构预测/矩阵二分类 预测核苷酸之间是否形成空间接触。
RNA tertiary distance-map prediction RNA 三级距离图预测 结构回归 预测核苷酸两两之间的空间距离。
mRNA translation efficiency prediction mRNA 翻译效率预测 回归 预测 translation efficiency。
Translation initiation site recognition 翻译起始位点识别 二分类/多分类/序列标注 识别 start codon 或真实 translation initiation site。
ncRNA class classification 非编码 RNA 类别分类 多分类 区分不同 ncRNA 类型。
Internal ribosome entry site identification 内部核糖体进入位点识别 二分类 判断序列是否为 IRES。
Protein expression level prediction 蛋白表达水平预测 回归 根据 RNA/CDS/UTR 序列预测 protein abundance。
Protein expression class prediction 蛋白表达等级分类 多分类/有序分类 分为 high、medium、low 等表达等级。
Reporter gene luciferase RLU prediction 报告基因荧光素酶 RLU 预测 回归 预测 reporter assay 中的 luciferase relative light unit。

论文中说明,RNA-focused 任务包括 RNA 二级/三级结构、稳定性、5′ UTR ribosome load、translation efficiency 等;结构任务通常输出 base-pair probability matrix、dot-bracket 或距离/接触图,表达和翻译相关任务多为回归。

benchmark

代表性模型

相关推荐
wjs20242 小时前
CSS 网格元素
开发语言
Java小白笔记2 小时前
OpenClaw 实战方法论
java·开发语言·人工智能·ai·全文检索·ai编程·ai写作
CoderCodingNo2 小时前
【信奥业余科普】C++ 的奇妙之旅 | 12:程序的交互与加工——数据的输入与算术运算
开发语言·c++
S1998_1997111609•X3 小时前
MacOS/ˉsh(so.))os.apkair/AI
开发语言·网络·人工智能
夏沫琅琊3 小时前
Android拨打电话技术文档
android·kotlin
SimpleLearingAI3 小时前
C++虚函数详解
开发语言·c++
a2591748032-随心所记3 小时前
android studio gradle快速编译配置
android·android studio
Dxy12393102163 小时前
Python使用XPath定位元素:动态计算与函数调用
开发语言·python
一块小土坷垃3 小时前
# 《电影猎手》观影伴侣:一款支持iOS/安卓/电视盒子的全平台影视工具“电影猎手”(附自用评价)
android·ios·电视盒子