GEO数据库数据下载实战:从关键词搜索到原始数据获取

GEO数据库构成:

1. GEO Platform (GPL)芯片平台

定义:描述实验使用的芯片或测序技术平台。

内容:包含探针与基因的对应关系、平台设计参数等元数据。

示例:GPL570(Affymetrix Human Genome U133 Plus 2.0 Array)。

2. GEO Sample (GSM)样本ID号

定义:单个生物样本的实验数据。

内容:原始数据(如CEL文件)、处理后的表达矩阵及样本描述(如疾病状态、处理条件)。

示例:GSM12345(肺癌组织样本的基因表达谱)。

3. GEO Series (GSE)study的ID号

定义:关联多个样本(GSM)的完整研究项目。

内容:实验设计、分析方法及所有相关GSM和GPL的索引。

示例:GSE12345(包含20个样本的肺癌转录组研究)。

4. GEO Dataset(GDS)数据集的ID号

定义:经NCBI整合和标准化的数据集。

内容:统一格式的表达矩阵、实验注释及差异分析工具。

示例:GDS1234(标准化后的乳腺癌基因表达数据集)。

最需要关注的就是数据集对应的GSE号(例如GSE116959)以及数据集的GPL采集平台(例如GPL17077)。

进入GEO数据库官网(https://www.ncbi.nlm.nih.gov/geo/)

通过搜索所研究目标的关键词或者数据集的GSE的ID可以寻找到相关的数据集,例如我们想寻找肺癌患者的转录组测序数据,可以搜索LUAD

在这个页面可以根据需要筛选数据,物种,数据类型,研究类型

在输入关键词后,需要选择感兴趣的数据集,点击数据集后进入以下页面

首先我们可以看到是关于该study的描述信息,包括文章信息、测序物种、实验类型等等,注意如果转录组数据的Experiment type是Expression profiling by array的话,需要下载对应的GPL采集平台注释文件(例如GPL17077),将探针ID转换为基因ID。如果是Expression profiling by high throughput sequencing,则不需要这一步操作。

在页面的下方,如果我们想下载作者标准化后的数据,可以直接在这个页面中Supplementary file中进行下载,选择Series Matrix File(s),这里会有三个部分信息,一是GSE的一些信息,二是临床信息,三是表达矩阵。

如果想下载原始数据,我们点击页面中Sample对应的GSM的ID,每个样本都对一个GSM,我们以第一个为例,点击后进入以下界面

然后点击最下方SRA编号,进入下面的页面

这里面包含了这个样本的基本信息,包括测序平台、文库类型、数据量等基本信息,然后点击页面右上方的Send to按钮,选择File,Format选择RunInfo,然后点击Creat file下载一个csv文件,打开文件,可以看到一个下载链接,点击链接就可以直接下载数据了。

相关推荐
熊猫钓鱼>_>1 天前
AI语料投毒与信息证伪:当生成式引擎成为攻击向量
人工智能·ai·agent·geo·skills·agent skills·openclaw
星辰徐哥2 天前
人工智能从入门到精通:数据可视化基础与应用
人工智能·ai·信息可视化·应用·数据
GEO_Huang2 天前
企业智脑如何生成决策方案?数谷的AI定制化服务的深度在哪?
大数据·人工智能·rpa·geo·ai定制·企业ai智能体定制
GEO_Huang2 天前
企业智脑定制太贵?数谷如何通过轻量化方案实现控本增效?
大数据·人工智能·aigc·geo·ai定制·企业ai定制
Promising_GEO4 天前
ArcGIS小技巧:起讫(Origin-Destination,OD)流量数据可视化教程
信息可视化·数据·制图·空间分析
ToB营销学堂6 天前
B2B AI内容实战指南:AI提效 x GEO获客 x 增长闭环
人工智能·geo·b2b营销获客
GEO_Huang7 天前
企业转型无从下手?数谷的定制化 AI 方案能否指点迷津?
大数据·人工智能·aigc·rpa·geo·企业智能体定制·企业ai定制
WINDHILL_风丘科技7 天前
IPEmotion曲线平滑计算:精准去除测试数据中的突起噪声
汽车·数据·噪声
GEO_Huang8 天前
扎根珠三角,数谷 AI 定制助千企数智化转型
人工智能·aigc·rpa·geo·ai+rpa
GEO_Huang8 天前
想要排名稳?数谷 GEO 优化助力企业品牌升级
大数据·人工智能·百度·aigc·rpa·geo