单细胞转录组测序上游——cellranger

1. 下载cellranger软件、sraToolkit软件并解压缩

复制代码
#安装sraToolKit,用于下载sra数据
wget https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

#安装cellranger
wget https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

#解压完即可使用,但需要添加到环境变量
tar -zxvf [tar包] [指定路径可选]  解压压缩包(到指定路径)

2. 下载参考基因组

复制代码
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#mouse参考基因组数据集下载

md5sum refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

3. 设置路径

复制代码
echo 'export PATH=/data/software/cellranger-7.1.0/bin/:$PATH' >> ~/.bashrc
echo 'export PATH=/data/software/sratoolkit.3.0.0-centos_linux64/bin/:$PATH' >> ~/.bashrc
source  ~/.bashrc

cellranger
#显示配置成功(每次登陆都要source)

4. 下载sra文件(GEO网站找)

复制代码
(1)prefetch SRR8478397 ---max-size 100GB --progress
(2)解压缩
(3)生成fastq文件:fastq-dump ---split-files ./ SRR8478397/ SRR8478397.sra
(4)压缩(cellranger输入文件为压缩文件,并且上一步运行完非常占空间):
gzip SRR8478397_1.fastq(单线程)
pigz SRR8478397_1.fastq(多线程,需下载pigz)

5. 改为cellranger要求的命名规范

Sample Name_S1_L00Lane Number _Read Type_001.fastq.gz

复制代码
mv SRR8478397_1.fastq.gz GSM3576396_S1_L001_R1_001.fastq.gz
mv SRR8478397_2.fastq.gz GSM3576396_S1_L001_R2_001.fastq.gz

6. 运行cellranger

复制代码
cellranger count --id=pbmc4k \
--transcriptome= /data/scRNAseq/00_cellranger/refdata-cellranger-GRCh38-1.2.0 \
--fastqs=/data/scRNAseq/00_cellranger/pbmc4k/fastqs \
--IocaIcores=10 \
--localmem=30 \ --nosecondary \
--chemistry=auto&
参数解读
复制代码
--id 指定输出文件的目录名;
--transcriptome 指定参考基因组路径
--fastqs指定存储测序文件的文件夹
--sample 指定需要处理的fastq文件的前缀
--expect-cell 指定预期的细胞数目,默认参数是3000个
--localcores 指定计算的核心数
--mempercore 指定内存大小 GB
--nosecondary 不需要进行降维聚类(后期用R可视化)

跑出来的pbmc4k文件夹里面的cmdline文件与out文件夹很重要,其他文件没用,特别是SC_RNA_COUNTER_CS文件夹删掉。

outs文件夹里的两文件夹(raw_feature_bc_matrix和droplet去除后的filtered_features_bc_matrix)是后续分析的文件。

结果解读
  • web_summary.html:必看,官方说明 summary HTML file ,包括许多QC指标,预估细胞数,比对率等;
  • metrics_summary.csv:CSV格式数据摘要,可以不看;
  • possorted_genome_bam.bam:比对文件,用于可视化比对的reads和重新创建FASTQ文件,可以不看;
  • possorted_genome_bam.bam.bai:索引文件;
  • filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件;
  • filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,可以不看;
  • raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看;
  • raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,可以不看;
  • analysis:数据分析目录,下面又包含聚类clustering(有graph-based & k-means)、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne。Cellranger分析后一般自行进行Seurat分析,不用看;
  • molecule_info.h5:可用于整合多样本,使用cellranger aggr函数;
  • cloupe.cloupe:官方可视化工具Loupe Cell Browser 输入文件,**无代码分析的情况下使用,**会代码的同学通常用不到。

参考(仅用于自我学习)

(15 封私信 / 72 条消息) 10X单细胞转录组测序---常规流程 - 知乎

相关推荐
tntxia17 小时前
linux curl命令详解_curl详解
linux
扛枪的书生19 小时前
Linux 网络管理器用法速查
linux
顺风尿一寸1 天前
Java Socket 内核之旅:从 SocketChannel.read() 到 tcp_recvmsg 与 epoll 的完整调用链路
linux
XIAOHEZIcode1 天前
Ubuntu 终端美化全栈指南:Bash 到 Kitty 踩坑实录
linux·ubuntu·命令行
唐青枫1 天前
别再只会用 cron:Linux systemd Timer 定时任务实战详解
linux
AlfredZhao3 天前
生产环境里,为什么不建议把普通端口直接暴露到公网?
linux·https·443·80
戴为沐4 天前
Linux内存扩容指南
linux
zylyehuo5 天前
Linux 彻底且安全地删除文件
linux
用户805533698035 天前
主线 U-Boot 上 RK3506:和闭源 rkbin 拔河的三个隐性契约
linux·嵌入式
用户034095297915 天前
linux fcitx 5 雾凇拼音 设置在中文输入法下仍然输入英文标点
linux