ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home
本文主要来自本课的讲义+搜索内容。
已不再上课,所以本文只是笔记,恕不能提供讨论与答疑。
junction reads
对转录本进行测序后,将所得reads,map到基因组时,有些reads可能来自"跨越两个不同的基因或exon"的连接区域(可能由于基因剪接事件),导致与基因组只能部分匹配。这些reads就是junction reads。通过分析它们,可以了解基因的剪接变异和不同转录本的生成情况(detect novel splicing isoform),这对理解基因表达调控和功能注释非常重要。
处理方法
- join exon策略
- 为已知的转录本建立CJL(conceptual junctions library),存放已知的剪接异构体
- 将reads同时map到基因组和CJL中,如果可以无剪接地匹配到基因组,说明不是junction reads,否则去匹配CJL
- 优点:快速、能识别新的剪接异构体
- 缺点:不能发现新的外显子和新基因
- split reads策略
- 与join exon的区别在于,对于map不到基因组的reads,先按类似滑窗的方式切成若干k-mer seeds,然后拿seeds再去map基因组,最后把map上的seeds合起来
- 优点:能识别新的剪接异构体,能发现新的外显子和新基因
- 缺点:比join exon要慢
可用工具
-
TopHat
-
Cufflinks
-
Cuffmerge
-
Cuffdiff
- 计算两个或多个样本的表达水平,并且计算每个变化的统计显著性
- 重要参数:-u
-
CummeRbund
- 方便分析Cufflinks结果的R包,可以绘图
r> source('http://www.bioconductor.org/biocLite.R') > biocLite('cummeRbund')
- 常用命令:
r> csDensity(genes(cuff_data)) > csScatter(genes(cuff_data), 'C1', 'C2') > csVolcano(genes(cuff_data), 'C1', 'C2') > expressionBarplot(mygene) > expressionBarplot(isoforms(mygene))