生物信息学导论-北大-RNA-Seq数据分析

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义+搜索内容。

已不再上课,所以本文只是笔记,恕不能提供讨论与答疑。


junction reads

对转录本进行测序后,将所得reads,map到基因组时,有些reads可能来自"跨越两个不同的基因或exon"的连接区域(可能由于基因剪接事件),导致与基因组只能部分匹配。这些reads就是junction reads。通过分析它们,可以了解基因的剪接变异和不同转录本的生成情况(detect novel splicing isoform),这对理解基因表达调控和功能注释非常重要。

处理方法

  1. join exon策略
    1. 为已知的转录本建立CJL(conceptual junctions library),存放已知的剪接异构体
    2. 将reads同时map到基因组和CJL中,如果可以无剪接地匹配到基因组,说明不是junction reads,否则去匹配CJL
    3. 优点:快速、能识别新的剪接异构体
    4. 缺点:不能发现新的外显子和新基因
  2. split reads策略
    1. 与join exon的区别在于,对于map不到基因组的reads,先按类似滑窗的方式切成若干k-mer seeds,然后拿seeds再去map基因组,最后把map上的seeds合起来
    2. 优点:能识别新的剪接异构体,能发现新的外显子和新基因
    3. 缺点:比join exon要慢

可用工具

  • TopHat

  • Cufflinks

  • Cuffmerge

  • Cuffdiff

    • 计算两个或多个样本的表达水平,并且计算每个变化的统计显著性
    • 重要参数:-u
  • CummeRbund

    • 方便分析Cufflinks结果的R包,可以绘图
    r 复制代码
    > source('http://www.bioconductor.org/biocLite.R')
    > biocLite('cummeRbund')
    • 常用命令:
    r 复制代码
    > csDensity(genes(cuff_data))
    > csScatter(genes(cuff_data), 'C1', 'C2')
    > csVolcano(genes(cuff_data), 'C1', 'C2')
    > expressionBarplot(mygene)
    > expressionBarplot(isoforms(mygene))
相关推荐
GIS数据转换器8 小时前
“一张图”背景下的地质灾害监测预警与防治能力建设
大数据·人工智能·数据分析·无人机·智慧城市
看海的四叔10 小时前
【SQL】SQL-管好你的字符串
大数据·数据库·hive·sql·数据分析·字符串
Mr数据杨10 小时前
飞船乘客状态预测与金融风控建模启发
大数据·机器学习·数据分析·kaggle
eqwaak011 小时前
4月30号(科技信息差)
python·科技·信息可视化·数据挖掘·数据分析
Mr数据杨12 小时前
花卉图像分类在植物识别与生态监测中的应用
人工智能·机器学习·分类·数据挖掘·数据分析·kaggle
Mr数据杨12 小时前
埃姆斯住宅房价预测与自动化估值建模
运维·机器学习·数据分析·自动化·kaggle
帅次12 小时前
Android AI 面试速刷版
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据分析
生物信息与育种12 小时前
全基因组重测序及群体遗传与进化分析技术服务指南
人工智能·深度学习·算法·数据分析·r语言
PaperData13 小时前
2012-2022年农业产业结构高级化
数据库·人工智能·数据分析·经管
PaperData13 小时前
2014-2026.3应届生网络招聘大数据
大数据·数据库·人工智能·数据分析·经管