生物信息学导论-北大-RNA-Seq数据分析

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义+搜索内容。

已不再上课,所以本文只是笔记,恕不能提供讨论与答疑。


junction reads

对转录本进行测序后,将所得reads,map到基因组时,有些reads可能来自"跨越两个不同的基因或exon"的连接区域(可能由于基因剪接事件),导致与基因组只能部分匹配。这些reads就是junction reads。通过分析它们,可以了解基因的剪接变异和不同转录本的生成情况(detect novel splicing isoform),这对理解基因表达调控和功能注释非常重要。

处理方法

  1. join exon策略
    1. 为已知的转录本建立CJL(conceptual junctions library),存放已知的剪接异构体
    2. 将reads同时map到基因组和CJL中,如果可以无剪接地匹配到基因组,说明不是junction reads,否则去匹配CJL
    3. 优点:快速、能识别新的剪接异构体
    4. 缺点:不能发现新的外显子和新基因
  2. split reads策略
    1. 与join exon的区别在于,对于map不到基因组的reads,先按类似滑窗的方式切成若干k-mer seeds,然后拿seeds再去map基因组,最后把map上的seeds合起来
    2. 优点:能识别新的剪接异构体,能发现新的外显子和新基因
    3. 缺点:比join exon要慢

可用工具

  • TopHat

  • Cufflinks

  • Cuffmerge

  • Cuffdiff

    • 计算两个或多个样本的表达水平,并且计算每个变化的统计显著性
    • 重要参数:-u
  • CummeRbund

    • 方便分析Cufflinks结果的R包,可以绘图
    r 复制代码
    > source('http://www.bioconductor.org/biocLite.R')
    > biocLite('cummeRbund')
    • 常用命令:
    r 复制代码
    > csDensity(genes(cuff_data))
    > csScatter(genes(cuff_data), 'C1', 'C2')
    > csVolcano(genes(cuff_data), 'C1', 'C2')
    > expressionBarplot(mygene)
    > expressionBarplot(isoforms(mygene))
相关推荐
下次再写37 分钟前
2026年Java开发者Python学习全攻略:从入门到实战
python·数据分析·web开发·ai应用·学习路径·java开发者·2026技术趋势
2601_954971131 小时前
没有SQL基础能学数据分析吗?先学什么更合适
数据库·sql·数据分析
SelectDB2 小时前
AI Agent 场景下,万级 JSON 字段的性能挑战与优化实践
数据库·人工智能·数据分析
小白学大数据1 天前
抖音搜索页数据批量爬取,多关键词同步采集实现
爬虫·python·数据分析
西贝爱学习1 天前
智能手机规格与价格数据集
数据分析·数据集
计算机毕业编程指导师1 天前
基于Spark的性格行为数据分析与可视化系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·python·数据挖掘·数据分析·spark·毕业设计·性格行为
QDYOKR1681 天前
OKR管理系统怎么选?2026主流OKR工具深度解析
大数据·人工智能·信息可视化·数据挖掘·数据分析
weixin_贾1 天前
基于R语言生物信息学大数据分析与绘图实践技术
生物信息·sci论文·多组学数据·韦恩图、小提琴图·火山图、折线图·网络图、趋势图、箱线图
PaperData2 天前
1988-2025年《中国人口和就业统计年鉴》全年份excel+PDF
数据库·人工智能·数据分析·经管
小王毕业啦2 天前
(1990-2024年)个股交易活跃度、个股换手率
大数据·人工智能·数据挖掘·数据分析·区块链·社科数据