单细胞转录组测序上游——cellranger

1. 下载cellranger软件、sraToolkit软件并解压缩

复制代码
#安装sraToolKit,用于下载sra数据
wget https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

#安装cellranger
wget https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

#解压完即可使用,但需要添加到环境变量
tar -zxvf [tar包] [指定路径可选]  解压压缩包(到指定路径)

2. 下载参考基因组

复制代码
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#mouse参考基因组数据集下载

md5sum refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

3. 设置路径

复制代码
echo 'export PATH=/data/software/cellranger-7.1.0/bin/:$PATH' >> ~/.bashrc
echo 'export PATH=/data/software/sratoolkit.3.0.0-centos_linux64/bin/:$PATH' >> ~/.bashrc
source  ~/.bashrc

cellranger
#显示配置成功(每次登陆都要source)

4. 下载sra文件(GEO网站找)

复制代码
(1)prefetch SRR8478397 ---max-size 100GB --progress
(2)解压缩
(3)生成fastq文件:fastq-dump ---split-files ./ SRR8478397/ SRR8478397.sra
(4)压缩(cellranger输入文件为压缩文件,并且上一步运行完非常占空间):
gzip SRR8478397_1.fastq(单线程)
pigz SRR8478397_1.fastq(多线程,需下载pigz)

5. 改为cellranger要求的命名规范

Sample Name\]_S1_L00\[Lane Number\] _\[Read Type\]_001.fastq.gz mv SRR8478397_1.fastq.gz GSM3576396_S1_L001_R1_001.fastq.gz mv SRR8478397_2.fastq.gz GSM3576396_S1_L001_R2_001.fastq.gz ### 6. 运行cellranger cellranger count --id=pbmc4k \ --transcriptome= /data/scRNAseq/00_cellranger/refdata-cellranger-GRCh38-1.2.0 \ --fastqs=/data/scRNAseq/00_cellranger/pbmc4k/fastqs \ --IocaIcores=10 \ --localmem=30 \ --nosecondary \ --chemistry=auto& ##### 参数解读 --id 指定输出文件的目录名; --transcriptome 指定参考基因组路径 --fastqs指定存储测序文件的文件夹 --sample 指定需要处理的fastq文件的前缀 --expect-cell 指定预期的细胞数目,默认参数是3000个 --localcores 指定计算的核心数 --mempercore 指定内存大小 GB --nosecondary 不需要进行降维聚类(后期用R可视化) 跑出来的pbmc4k文件夹里面的cmdline文件与out文件夹很重要,其他文件没用,特别是SC_RNA_COUNTER_CS文件夹删掉。 outs文件夹里的两文件夹(raw_feature_bc_matrix和droplet去除后的**filtered_features_bc_matrix**)是后续分析的文件。 ##### **结果解读** * **web_summary.html:必看,官方说明 summary HTML file ,包括许多QC指标,预估细胞数,比对率等;** * metrics_summary.csv:CSV格式数据摘要,可以不看; * possorted_genome_bam.bam:比对文件,用于可视化比对的reads和重新创建FASTQ文件,可以不看; * possorted_genome_bam.bam.bai:索引文件; * **filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件;** * filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,可以不看; * raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看; * raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,可以不看; * analysis:数据分析目录,下面又包含聚类clustering(有graph-based \& k-means)、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne。Cellranger分析后一般自行进行Seurat分析,不用看; * molecule_info.h5:可用于整合多样本,使用cellranger aggr函数; * cloupe.cloupe:官方可视化工具**Loupe Cell Browser** 输入文件,**无代码分析的情况下使用,**会代码的同学通常用不到。 参考(仅用于自我学习) [(15 封私信 / 72 条消息) 10X单细胞转录组测序---常规流程 - 知乎](https://zhuanlan.zhihu.com/p/643767873 "(15 封私信 / 72 条消息) 10X单细胞转录组测序—常规流程 - 知乎")

相关推荐
讨厌下雨的天空2 小时前
Linux信号
linux·运维·c++
赖small强2 小时前
【Linux C/C++开发】第26章:系统级综合项目理论
linux·c语言·c++
SCandL1522 小时前
安全上下文的修改实验
linux
ragnwang2 小时前
Ubuntu /home 分区安全扩容教程
linux·运维·ubuntu
Azure++2 小时前
Centos安装clickhouse
linux·clickhouse·centos
濊繵2 小时前
Linux网络--应用层自定义协议与序列化
linux·服务器·网络
潇凝子潇3 小时前
Linux 服务器实时监控Shell 脚本
linux·服务器·chrome
顾安r3 小时前
11.21 脚本 网页优化
linux·前端·javascript·算法·html
last demo3 小时前
iscsi服务器
linux·运维·服务器·php