【数据集】Romanov数据集

1. 数据集背景

名称 :Romanov 单细胞转录组数据集
来源 :Romanov et al., Cell Reports , 2017
原始论文标题

"Molecular interrogation of hypothalamic organization reveals distinct dopamine neuronal subtypes"

GEO Accession :GSE87544
物种 :小鼠(Mus musculus)
组织来源:小鼠下丘脑(hypothalamus)

该研究通过对小鼠下丘脑区域的单细胞转录组进行测序,探索了多巴胺神经元的多样性,并揭示了下丘脑中不同神经元亚型的分子特征。该数据集后来被广泛用于聚类算法、图嵌入、表示学习和细胞异质性分析中。


2. 数据集内容

内容 描述
细胞数量 ~2,881 个单细胞
基因数量 ~24,000 个基因(可变,根据处理方式不同)
常用高变基因数量 约 2,000--3,000 个(用于降维、聚类)
细胞类型标签 原始数据无标签,需通过聚类 + marker gene 注释获得
数据格式 常见为 .h5ad, .mat, .pkl, .csv
表达数据类型 非归一化的 raw count,或对数归一化表达矩阵(log1p count)
稀疏格式 支持稀疏表示,如 CSR 稀疏矩阵以节省内存

3. 数据特征与应用价值

✅ 数据特征:
  • 来自 真实组织 的单细胞数据,噪声自然存在,具有代表性。

  • 细胞类型分布自然不平衡,适合用于测试模型的 鲁棒性与泛化能力

  • 不同细胞之间的表达谱 高度异质性,适合图神经网络、VAE、对比学习等任务。

  • 数据量适中,适合用于快速实验验证和算法原型设计。

📌 应用场景:
应用任务 描述
聚类分析 将细胞划分为不同的亚群
降维可视化 使用 PCA, t-SNE, UMAP 等方法展示细胞异质性
marker gene 分析 比较各类细胞中高度表达的标志基因
表达谱重建 训练自编码器、图神经网络、生成模型等
迁移学习 作为源数据集迁移到其他脑区数据
嵌入学习 学习低维细胞表示用于下游任务

4. 数据预处理(常见步骤)

使用 scanpy 等工具对 Romanov 数据集进行预处理通常包括:

复制代码
import scanpy as sc

adata = sc.read_h5ad("Romanov.h5ad")
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
adata = adata[:, adata.var.highly_variable]
sc.pp.scale(adata)
sc.tl.pca(adata)

也可输出 .csv.pkl.mat 格式用于其他模型加载。


5. 数据来源与下载方式

✅ 官方 GEO 数据:

你可以从 GEO 下载原始 count matrix 以及元数据(meta.txt)。

✅ 第三方预处理数据:
  • 多个 GitHub 项目中包含预处理好的 Romanov.pkl / Romanov.mat / Romanov.h5ad 文件,如:


6. 数据集在学术中的使用示例

该数据集被广泛用于下列研究中:

  • 图神经网络在单细胞聚类中的应用(如 DGRL, scGCN, scTAG, scASDC)

  • 表达图重构(Graph Autoencoder)

  • 细胞表示学习(Representation Learning)

  • 多视图融合(Multi-omics 研究)

  • 对比学习方法验证(如 SimCLR-style 单细胞嵌入)


7. t-SNE 可视化结果

使用预训练的图嵌入模型提取表示后做 t-SNE,可观察到清晰的细胞簇群:

复制代码
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

tsne = TSNE(n_components=2)
embedding_2d = tsne.fit_transform(latent_representation)
plt.scatter(embedding_2d[:, 0], embedding_2d[:, 1], c=cluster_labels, cmap='tab10')
plt.title("t-SNE on Romanov Latent Representation")
plt.show()

8. 常见问题 FAQ

问题 答案
是否包含细胞标签? 原始数据无标签,需根据 marker gene 或聚类结果注释
如何生成 .pkl.mat 文件? 使用 scanpyscipy.io.savemat 可轻松转换
是否可用于深度学习训练? 是,常用于图神经网络、自编码器等模型训练
是否可用于跨数据集迁移学习? 是,适合作为源域数据

相关推荐
ai产品老杨5 小时前
打通各大芯片厂商相互间的壁垒,省去繁琐重复的适配流程的智慧工业开源了
人工智能·开源·音视频·能源
小陈phd6 小时前
高级RAG策略学习(五)——llama_index实现上下文窗口增强检索RAG
人工智能
凯禾瑞华养老实训室8 小时前
人才教育导向下:老年生活照护实训室助力提升学生老年照护服务能力
人工智能
湫兮之风9 小时前
Opencv: cv::LUT()深入解析图像块快速查表变换
人工智能·opencv·计算机视觉
Christo39 小时前
TFS-2018《On the convergence of the sparse possibilistic c-means algorithm》
人工智能·算法·机器学习·数据挖掘
qq_508823409 小时前
金融量化指标--2Alpha 阿尔法
大数据·人工智能
黑金IT10 小时前
`.cursorrules` 与 `.cursorcontext`:Cursor AI 编程助手时代下的“双轨配置”指南
人工智能
非门由也10 小时前
《sklearn机器学习——管道和复合估计器》回归中转换目标
机器学习·回归·sklearn
dlraba80210 小时前
基于 OpenCV 的信用卡数字识别:从原理到实现
人工智能·opencv·计算机视觉
IMER SIMPLE11 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习