医学数据分析实训项目一医学数据采集

项目一医学数据采集

一、实践目的

了解医学数据的特点；
熟悉常见的医学公共数据库的使用方法；
掌握获取医学数据的方法；

二、实践平台

操作系统：Windows10 及以上
Python 版本：3.8.x 及以上
PyCharm 或 Anoconda 集成环境

三、实践内容

医学数据采集实验的数据来源广泛，主要包括以下几个方面：

患者数据：通过电子病历系统、患者自主记录等方式收集患者的临床症状、体征、病史、用药情况等信息；
医疗设备数据：利用各种医疗设备（如心电图机、超声仪、CT 扫描仪等）实时监测患者的生理参数和健康状况，生成大量医学图像和数据；
实验室数据：通过实验室检测获取患者的生化指标、遗传学信息、微生物学结果等数据；
外部数据源：包括公共卫生数据库、医学研究数据库等，这些数据库包含了大量的医学研究成果和临床数据，为医学数据采集实验提供了丰富的资源。

1. 熟悉常见医学公共数据库的使用方法

（1）熟悉 Kaplan-Meier Plotter 平台 https://kmplot.com/analysis/ 的使用

操作过程 ：
- 访问 Kaplan-Meier Plotter 平台首页（图 1）。
- 输入对应参数（图 2），如基因 STAT2 和乳腺癌生存率的相关性。
- 生成生存率关系图（图 3），并通过文字对结果进行解释。

解释含义：(fitten code生成)

1 高表达STAT2基因的乳腺癌患者群体的生存率显著高于低表达

2 体这种差异在统计学上是显著的（Log-rank P值为9e-11）

3 STAT2基因的高表达可能与乳腺癌患者更好的生存率相关

（2）熟悉 SEER 数据库 https://seer.cancer.gov/data-software/ 的使用方法

操作过程 ：
- 在 SEER 数据库中查询癌症数据。
- 对查询结果（图 4）进行解释。

解释含义：（fitten code生成）

1 从2000年到2021年，男性和女性的癌症发病率总体上保持稳定，没有显著的变化

2 男性和女性的发病率在2000年至2017年间没有显著的年度百分比变化

3 这张图表明，在2000年至2021年期间，所有癌症部位的年龄调整发病率在男性和女性中都没有显著变化

2. 使用 GEO 数据库 https://www.ncbi.nlm.nih.gov/geo 下载数据集

操作步骤：
- 访问 GEO 页面（图 5）。
- 在 GEO 中检索肝癌（HCC）环状 RNA（circRNA）研究数据（图 6）。
- 选择并查看检索到的数据集（图 7）。
- 查看数据集的详细信息（图 8）。
- 下载数据集（图 9）。
查看下载的数据集文件（图 10），并对该数据集进行解释。

解释含义：（fitten code生成）

在GEO（Gene Expression Omnibus）数据库中，"ID_REF"通常表示基因或探针的标识符。在你提供的数据集中，"ID_REF"后面的数据是基因或探针的表达值，这些值对应于不同的样本（GSM编号）。

这是一个关于肝癌（HCC）环状RNA（circRNA）研究的表达矩阵。每一行代表一个特定的circRNA（由"ID_REF"标识），每一列代表一个样本（由GSM编号标识）。矩阵中的数值表示相应circRNA在相应样本中的表达水平。

例如，第一行数据：

"ASCRP000002" 9.042573151 9.238902276 8.997313248 9.4371723 8.962706649 9.415486133 9.017848355 9.524889458 9.671877122 9.479558558 9.227469787 9.409693079 8.97187312 8.96956744

CopyInsert

表示circRNA "ASCRP000002"在14个不同样本中的表达值。这些值可以用来分析circRNA在不同样本中的表达差异，从而研究其在肝癌发生发展中的作用。