R语言:单细胞:挑选PC分群聚类

复制代码
> library(dplyr)
> library(patchwork)
> library(ggplot2)
> library(SingleR)
> library(randomcoloR)
> library(clustree)

#生成随机颜色

> randomColor <- function() {

paste0("#",paste0(sample(c(0:9, letters[1:6]), 6, replace = TRUE),collapse = ""))

}

生成100个随机颜色

> randomColors <- replicate(100,randomColor())

> seurat=readRDS("去批次后seurat.rds")#读取数据

> collist=c(ggsci::pal_nejm()(8))

> names(collist)=names(table(seurat$Type))

#热图可视化前20个PC

> pdf(file = "前20个PC热图.pdf",width =7.5,height = 9)

> DimHeatmap(seurat, dims = 1:20, cells = 1000, balanced = TRUE)

> dev.off()

##确定使用PC个数

> seurat <- JackStraw(seurat, num.replicate = 100)

> seurat <- ScoreJackStraw(seurat, dims = 1:20)

> pdf(file = "jackstrawplot.pdf",width =7.5,height = 5.5)

> JackStrawPlot(seurat, dims = 1:20)

> dev.off()

> pdf(file = "ElbowPlot.pdf",width =5,height = 4)

> ElbowPlot(seurat,ndims = 30)

> dev.off()

#选择PC数

> seuratPC=9

##对细胞聚类

> seurat=FindNeighbors(seurat, dims = 1:seuratPC, reduction = "harmony")

#挑选分辨率

> for (res in c(0.01,0.05,0.1,1,1.5,2,2.5,3,3.5,4)) {

seurat=FindClusters(seurat, graph.name = "RNA_snn", resolution = res, algorithm = 1)}

apply(seurat@meta.data[,grep("RNA_snn_res",colnames(seurat@meta.data))],2,table)

> p2_tree=clustree(seurat@meta.data, prefix = "RNA_snn_res.")

> pdf(file = "挑选分辨率.pdf",width =12,height =10)

> p2_tree

> dev.off()

> seurat=FindNeighbors(seurat, dims = 1:seuratPC, reduction = "harmony")

#选择分辨率进行降维

> px=1

> seurat <- FindClusters(seurat, resolution = px)

only.pos:只保留上调差异表达的基因

> seurat.markers <- FindAllMarkers(seurat, only.pos = TRUE, min.pct = 0.25, logfc.threshold = 0.25)

> write.csv(seurat.markers,file = "每个聚类的marker基因.csv")

> head(seurat.markers)

#选择每个聚类前5各基因绘制热图

> top5seurat.markers <- seurat.markers %>%

group_by(cluster) %>%

top_n(n = 5, wt = avg_log2FC)

> col <- c(ggsci::pal_npg()(9),ggsci::pal_jco()(9),ggsci::pal_jama()(7),ggsci::pal_nejm()(8))

> pdf(file = "聚类热图.pdf",width =22,height = 16)

> DoHeatmap(seurat,features = top5seurat.markers$gene,

group.colors = col) +

ggsci::scale_colour_npg() +

scale_fill_gradient2(low = '#0099CC',mid = 'white',high = '#CC0033',

name = 'Z-score')

> dev.off()

将细胞在低维空间可视化UMAP/tSNE

> seurat <- RunUMAP(seurat, dims = 1:seuratPC, reduction = "harmony")

> seurat <- RunTSNE(seurat, dims = 1:seuratPC, reduction = "harmony")

可视化UMAP/tSNE3

> pdf(file = "聚类后UMAP.pdf",width =6.5,height = 5.5)

> DimPlot(seurat, reduction = "umap", label = T, label.size = 3.5,pt.size = 2)+theme_classic()+theme(panel.border = element_rect(fill=NA,color="black", size=0.5, linetype="solid"),legend.position = "right")

> dev.off()

> pdf(file = "聚类后TSEN.pdf",width =6.5,height = 5.5)

> DimPlot(seurat, reduction = "tsne", label = T, label.size = 3.5,pt.size = 2)+theme_classic()+theme(panel.border = element_rect(fill=NA,color="black", size=0.5, linetype="solid"),legend.position = "right")

> dev.off()

学习交流

相关推荐
一声沧海笑8 小时前
dplyr、tidyverse和ggplot2初探
信息可视化·数据分析·r语言
waterHBO12 小时前
R语言 基础笔记
开发语言·笔记·r语言
Red Red21 小时前
GEO数据库提取疾病样本和正常样本|GEO数据库区分疾病和正常样本|直接用|生物信息|生信
开发语言·数据库·笔记·学习·r语言·c#·生物信息
邢博士谈科教3 天前
比传统机器学习更先进的深度学习神经网络的二分类建模全流程教程
数据挖掘·r语言·数据可视化
环能jvav大师4 天前
基于R语言的统计分析基础:使用键盘输入数据
开发语言·学习·数据分析·r语言·人机交互
Red Red4 天前
GEO数据的下载和处理|GEO数据转换为Gene symbol|GEO注释文件提取symbol|查看样本标签|查看GEO数据疾病或正常|生物信息基础
数据库·笔记·学习·r语言·生物信息·geo数据库
不是伍壹5 天前
【R语言】删除数据框中所有行中没有大于200的数值的行
开发语言·r语言
hongyanwin5 天前
商业预测 初识R
r语言·预测
maizeman1265 天前
R语言统计分析——用回归做ANOVA
回归·r语言·方差分析·anova·线性模型
武艺晴小朋友你好5 天前
基于scRNA-data,运用pySCENIC寻找细胞群里面活跃的调节子
r语言·数据可视化·r语言-4.2.1