单细胞转录组测序上游——cellranger

1. 下载cellranger软件、sraToolkit软件并解压缩

复制代码

#安装sraToolKit，用于下载sra数据
wget https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

#安装cellranger
wget https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

#解压完即可使用，但需要添加到环境变量
tar -zxvf [tar包] [指定路径可选]  解压压缩包（到指定路径）

2. 下载参考基因组

复制代码

wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#mouse参考基因组数据集下载

md5sum refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

3. 设置路径

复制代码

echo 'export PATH=/data/software/cellranger-7.1.0/bin/:$PATH' >> ~/.bashrc
echo 'export PATH=/data/software/sratoolkit.3.0.0-centos_linux64/bin/:$PATH' >> ~/.bashrc
source  ~/.bashrc

cellranger
#显示配置成功（每次登陆都要source）

4. 下载sra文件（GEO网站找）

复制代码

（1）prefetch SRR8478397 ---max-size 100GB --progress
（2）解压缩
（3）生成fastq文件：fastq-dump ---split-files ./ SRR8478397/ SRR8478397.sra
（4）压缩（cellranger输入文件为压缩文件，并且上一步运行完非常占空间）：
gzip SRR8478397_1.fastq（单线程）
pigz SRR8478397_1.fastq（多线程，需下载pigz）

5. 改为cellranger要求的命名规范

Sample Name\]_S1_L00\[Lane Number\] _\[Read Type\]_001.fastq.gz mv SRR8478397_1.fastq.gz GSM3576396_S1_L001_R1_001.fastq.gz mv SRR8478397_2.fastq.gz GSM3576396_S1_L001_R2_001.fastq.gz ### 6. 运行cellranger cellranger count --id=pbmc4k \ --transcriptome= /data/scRNAseq/00_cellranger/refdata-cellranger-GRCh38-1.2.0 \ --fastqs=/data/scRNAseq/00_cellranger/pbmc4k/fastqs \ --IocaIcores=10 \ --localmem=30 \ --nosecondary \ --chemistry=auto& ##### 参数解读 --id 指定输出文件的目录名； --transcriptome 指定参考基因组路径 --fastqs指定存储测序文件的文件夹 --sample 指定需要处理的fastq文件的前缀 --expect-cell 指定预期的细胞数目，默认参数是3000个 --localcores 指定计算的核心数 --mempercore 指定内存大小 GB --nosecondary 不需要进行降维聚类（后期用R可视化） 跑出来的pbmc4k文件夹里面的cmdline文件与out文件夹很重要，其他文件没用，特别是SC_RNA_COUNTER_CS文件夹删掉。 outs文件夹里的两文件夹（raw_feature_bc_matrix和droplet去除后的**filtered_features_bc_matrix**）是后续分析的文件。 ##### **结果解读** * **web_summary.html：必看，官方说明 summary HTML file ，包括许多QC指标，预估细胞数，比对率等；** * metrics_summary.csv：CSV格式数据摘要，可以不看； * possorted_genome_bam.bam：比对文件，用于可视化比对的reads和重新创建FASTQ文件，可以不看； * possorted_genome_bam.bam.bai：索引文件； * **filtered_gene_bc_matrices：是重要的一个目录，下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz，是下游Seurat、Scater、Monocle等分析的输入文件；** * filtered_feature_bc_matrix.h5：过滤掉的barcode信息HDF5 format，可以不看； * raw_feature_bc_matrix：原始barcode信息，未过滤的可以用于构建矩阵的文件，可以不看； * raw_feature_bc_matrix.h5：原始barcode信息HDF5 format，可以不看； * analysis：数据分析目录，下面又包含聚类clustering（有graph-based \& k-means）、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne。Cellranger分析后一般自行进行Seurat分析，不用看； * molecule_info.h5：可用于整合多样本，使用cellranger aggr函数； * cloupe.cloupe：官方可视化工具**Loupe Cell Browser** 输入文件，**无代码分析的情况下使用，**会代码的同学通常用不到。 参考（仅用于自我学习） [(15 封私信 / 72 条消息) 10X单细胞转录组测序---常规流程 - 知乎](https://zhuanlan.zhihu.com/p/643767873 "(15 封私信 / 72 条消息) 10X单细胞转录组测序—常规流程 - 知乎")