单细胞转录组测序上游——cellranger

1. 下载cellranger软件、sraToolkit软件并解压缩

复制代码
#安装sraToolKit,用于下载sra数据
wget https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

#安装cellranger
wget https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

#解压完即可使用,但需要添加到环境变量
tar -zxvf [tar包] [指定路径可选]  解压压缩包(到指定路径)

2. 下载参考基因组

复制代码
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#mouse参考基因组数据集下载

md5sum refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz

3. 设置路径

复制代码
echo 'export PATH=/data/software/cellranger-7.1.0/bin/:$PATH' >> ~/.bashrc
echo 'export PATH=/data/software/sratoolkit.3.0.0-centos_linux64/bin/:$PATH' >> ~/.bashrc
source  ~/.bashrc

cellranger
#显示配置成功(每次登陆都要source)

4. 下载sra文件(GEO网站找)

复制代码
(1)prefetch SRR8478397 ---max-size 100GB --progress
(2)解压缩
(3)生成fastq文件:fastq-dump ---split-files ./ SRR8478397/ SRR8478397.sra
(4)压缩(cellranger输入文件为压缩文件,并且上一步运行完非常占空间):
gzip SRR8478397_1.fastq(单线程)
pigz SRR8478397_1.fastq(多线程,需下载pigz)

5. 改为cellranger要求的命名规范

Sample Name\]_S1_L00\[Lane Number\] _\[Read Type\]_001.fastq.gz mv SRR8478397_1.fastq.gz GSM3576396_S1_L001_R1_001.fastq.gz mv SRR8478397_2.fastq.gz GSM3576396_S1_L001_R2_001.fastq.gz ### 6. 运行cellranger cellranger count --id=pbmc4k \ --transcriptome= /data/scRNAseq/00_cellranger/refdata-cellranger-GRCh38-1.2.0 \ --fastqs=/data/scRNAseq/00_cellranger/pbmc4k/fastqs \ --IocaIcores=10 \ --localmem=30 \ --nosecondary \ --chemistry=auto& ##### 参数解读 --id 指定输出文件的目录名; --transcriptome 指定参考基因组路径 --fastqs指定存储测序文件的文件夹 --sample 指定需要处理的fastq文件的前缀 --expect-cell 指定预期的细胞数目,默认参数是3000个 --localcores 指定计算的核心数 --mempercore 指定内存大小 GB --nosecondary 不需要进行降维聚类(后期用R可视化) 跑出来的pbmc4k文件夹里面的cmdline文件与out文件夹很重要,其他文件没用,特别是SC_RNA_COUNTER_CS文件夹删掉。 outs文件夹里的两文件夹(raw_feature_bc_matrix和droplet去除后的**filtered_features_bc_matrix**)是后续分析的文件。 ##### **结果解读** * **web_summary.html:必看,官方说明 summary HTML file ,包括许多QC指标,预估细胞数,比对率等;** * metrics_summary.csv:CSV格式数据摘要,可以不看; * possorted_genome_bam.bam:比对文件,用于可视化比对的reads和重新创建FASTQ文件,可以不看; * possorted_genome_bam.bam.bai:索引文件; * **filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件;** * filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,可以不看; * raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看; * raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,可以不看; * analysis:数据分析目录,下面又包含聚类clustering(有graph-based \& k-means)、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne。Cellranger分析后一般自行进行Seurat分析,不用看; * molecule_info.h5:可用于整合多样本,使用cellranger aggr函数; * cloupe.cloupe:官方可视化工具**Loupe Cell Browser** 输入文件,**无代码分析的情况下使用,**会代码的同学通常用不到。 参考(仅用于自我学习) [(15 封私信 / 72 条消息) 10X单细胞转录组测序---常规流程 - 知乎](https://zhuanlan.zhihu.com/p/643767873 "(15 封私信 / 72 条消息) 10X单细胞转录组测序—常规流程 - 知乎")

相关推荐
红茶要加冰7 小时前
linux的例行性工作——计划任务
linux·运维·服务器
byxdaz7 小时前
Linux中查看硬件信息
linux·运维
darkdragonking7 小时前
由一次构建 OpenEuler 22.03 dnf源所了解到的
linux·运维·服务器
米高梅狮子7 小时前
Ceph 分布式存储 部署
linux·运维·数据库·分布式·ceph·docker·华为云
曦夜日长8 小时前
Linux系统篇,开发工具(五):git的基本使用和浅层认识
linux·运维·服务器
Harm灬小海8 小时前
【云计算学习之路】学习Centos7系统-ROOT密码重置方法
linux·运维·服务器·学习·云计算
weixin_453639598 小时前
Docker Redis 本地能 Ping 通但 6379 端口连不上?排查记录与解决
linux·redis
Python-AI Xenon8 小时前
Linux逻辑卷(LVM)初始化与文件系统选型全指南
linux·运维·性能测试·存储
z202305088 小时前
RDMA之RoCEv2 无损网络PFC 、DCQCN 和ECN (7)
linux·服务器·网络·人工智能·ai
dadaobusi8 小时前
MRIF说明
linux