【数据集】Romanov数据集

1. 数据集背景

名称 :Romanov 单细胞转录组数据集
来源 :Romanov et al., Cell Reports , 2017
原始论文标题

"Molecular interrogation of hypothalamic organization reveals distinct dopamine neuronal subtypes"

GEO Accession :GSE87544
物种 :小鼠(Mus musculus)
组织来源:小鼠下丘脑(hypothalamus)

该研究通过对小鼠下丘脑区域的单细胞转录组进行测序,探索了多巴胺神经元的多样性,并揭示了下丘脑中不同神经元亚型的分子特征。该数据集后来被广泛用于聚类算法、图嵌入、表示学习和细胞异质性分析中。


2. 数据集内容

内容 描述
细胞数量 ~2,881 个单细胞
基因数量 ~24,000 个基因(可变,根据处理方式不同)
常用高变基因数量 约 2,000--3,000 个(用于降维、聚类)
细胞类型标签 原始数据无标签,需通过聚类 + marker gene 注释获得
数据格式 常见为 .h5ad, .mat, .pkl, .csv
表达数据类型 非归一化的 raw count,或对数归一化表达矩阵(log1p count)
稀疏格式 支持稀疏表示,如 CSR 稀疏矩阵以节省内存

3. 数据特征与应用价值

✅ 数据特征:
  • 来自 真实组织 的单细胞数据,噪声自然存在,具有代表性。

  • 细胞类型分布自然不平衡,适合用于测试模型的 鲁棒性与泛化能力

  • 不同细胞之间的表达谱 高度异质性,适合图神经网络、VAE、对比学习等任务。

  • 数据量适中,适合用于快速实验验证和算法原型设计。

📌 应用场景:
应用任务 描述
聚类分析 将细胞划分为不同的亚群
降维可视化 使用 PCA, t-SNE, UMAP 等方法展示细胞异质性
marker gene 分析 比较各类细胞中高度表达的标志基因
表达谱重建 训练自编码器、图神经网络、生成模型等
迁移学习 作为源数据集迁移到其他脑区数据
嵌入学习 学习低维细胞表示用于下游任务

4. 数据预处理(常见步骤)

使用 scanpy 等工具对 Romanov 数据集进行预处理通常包括:

复制代码
import scanpy as sc

adata = sc.read_h5ad("Romanov.h5ad")
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000)
adata = adata[:, adata.var.highly_variable]
sc.pp.scale(adata)
sc.tl.pca(adata)

也可输出 .csv.pkl.mat 格式用于其他模型加载。


5. 数据来源与下载方式

✅ 官方 GEO 数据:

你可以从 GEO 下载原始 count matrix 以及元数据(meta.txt)。

✅ 第三方预处理数据:
  • 多个 GitHub 项目中包含预处理好的 Romanov.pkl / Romanov.mat / Romanov.h5ad 文件,如:


6. 数据集在学术中的使用示例

该数据集被广泛用于下列研究中:

  • 图神经网络在单细胞聚类中的应用(如 DGRL, scGCN, scTAG, scASDC)

  • 表达图重构(Graph Autoencoder)

  • 细胞表示学习(Representation Learning)

  • 多视图融合(Multi-omics 研究)

  • 对比学习方法验证(如 SimCLR-style 单细胞嵌入)


7. t-SNE 可视化结果

使用预训练的图嵌入模型提取表示后做 t-SNE,可观察到清晰的细胞簇群:

复制代码
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

tsne = TSNE(n_components=2)
embedding_2d = tsne.fit_transform(latent_representation)
plt.scatter(embedding_2d[:, 0], embedding_2d[:, 1], c=cluster_labels, cmap='tab10')
plt.title("t-SNE on Romanov Latent Representation")
plt.show()

8. 常见问题 FAQ

问题 答案
是否包含细胞标签? 原始数据无标签,需根据 marker gene 或聚类结果注释
如何生成 .pkl.mat 文件? 使用 scanpyscipy.io.savemat 可轻松转换
是否可用于深度学习训练? 是,常用于图神经网络、自编码器等模型训练
是否可用于跨数据集迁移学习? 是,适合作为源域数据

相关推荐
铁蛋AI编程实战4 小时前
通义千问 3.5 Turbo GGUF 量化版本地部署教程:4G 显存即可运行,数据永不泄露
java·人工智能·python
HyperAI超神经4 小时前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
JoySSLLian4 小时前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
BestSongC4 小时前
行人摔倒检测系统 - 前端文档(1)
前端·人工智能·目标检测
模型时代5 小时前
Anthropic明确拒绝在Claude中加入广告功能
人工智能·microsoft
夕小瑶5 小时前
OpenClaw、Moltbook爆火,算力如何48小时内扩到1900张卡
人工智能
一枕眠秋雨>o<5 小时前
透视算力:cann-tools如何让AI性能调优从玄学走向科学
人工智能
那个村的李富贵5 小时前
昇腾CANN跨行业实战:五大新领域AI落地案例深度解析
人工智能·aigc·cann
集简云-软件连接神器5 小时前
技术实战:集简云语聚AI实现小红书私信接入AI大模型全流程解析
人工智能·小红书·ai客服
松☆5 小时前
深入理解CANN:面向AI加速的异构计算架构
人工智能·架构