生物信息学导论-北大-RNA-Seq数据分析

陆沙2024-12-24 8:56

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义+搜索内容。

已不再上课，所以本文只是笔记，恕不能提供讨论与答疑。

junction reads

对转录本进行测序后，将所得reads，map到基因组时，有些reads可能来自"跨越两个不同的基因或exon"的连接区域（可能由于基因剪接事件），导致与基因组只能部分匹配。这些reads就是junction reads。通过分析它们，可以了解基因的剪接变异和不同转录本的生成情况（detect novel splicing isoform），这对理解基因表达调控和功能注释非常重要。

处理方法

join exon策略
1. 为已知的转录本建立CJL（conceptual junctions library），存放已知的剪接异构体
2. 将reads同时map到基因组和CJL中，如果可以无剪接地匹配到基因组，说明不是junction reads，否则去匹配CJL
3. 优点：快速、能识别新的剪接异构体
4. 缺点：不能发现新的外显子和新基因
split reads策略
1. 与join exon的区别在于，对于map不到基因组的reads，先按类似滑窗的方式切成若干k-mer seeds，然后拿seeds再去map基因组，最后把map上的seeds合起来
2. 优点：能识别新的剪接异构体，能发现新的外显子和新基因
3. 缺点：比join exon要慢

可用工具

TopHat
Cufflinks
Cuffmerge
Cuffdiff
- 计算两个或多个样本的表达水平，并且计算每个变化的统计显著性
- 重要参数：-u

CummeRbund

方便分析Cufflinks结果的R包，可以绘图

r 复制代码

> source('http://www.bioconductor.org/biocLite.R')
> biocLite('cummeRbund')

常用命令：

r 复制代码

> csDensity(genes(cuff_data))
> csScatter(genes(cuff_data), 'C1', 'C2')
> csVolcano(genes(cuff_data), 'C1', 'C2')
> expressionBarplot(mygene)
> expressionBarplot(isoforms(mygene))