项目一 医学数据采集
一、实践目的
- 了解医学数据的特点;
- 熟悉常见的医学公共数据库的使用方法;
- 掌握获取医学数据的方法;
二、实践平台
- 操作系统:Windows10 及以上
- Python 版本:3.8.x 及以上
- PyCharm 或 Anoconda 集成环境
三、实践内容
医学数据采集实验的数据来源广泛,主要包括以下几个方面:
- 患者数据:通过电子病历系统、患者自主记录等方式收集患者的临床症状、体征、病史、用药情况等信息;
- 医疗设备数据:利用各种医疗设备(如心电图机、超声仪、CT 扫描仪等)实时监测患者的生理参数和健康状况,生成大量医学图像和数据;
- 实验室数据:通过实验室检测获取患者的生化指标、遗传学信息、微生物学结果等数据;
- 外部数据源:包括公共卫生数据库、医学研究数据库等,这些数据库包含了大量的医学研究成果和临床数据,为医学数据采集实验提供了丰富的资源。
1. 熟悉常见医学公共数据库的使用方法
(1)熟悉 Kaplan-Meier Plotter 平台 https://kmplot.com/analysis/ 的使用
- 操作过程 :
-
访问 Kaplan-Meier Plotter 平台首页(图 1)。
-
输入对应参数(图 2),如基因 STAT2 和乳腺癌生存率的相关性。
-
生成生存率关系图(图 3),并通过文字对结果进行解释。
-
-
解释含义:(fitten code生成)
1 高表达STAT2基因的乳腺癌患者群体的生存率显著高于低表达
2 体这种差异在统计学上是显著的(Log-rank P值为9e-11)
3 STAT2基因的高表达可能与乳腺癌患者更好的生存率相关
(2)熟悉 SEER 数据库 https://seer.cancer.gov/data-software/ 的使用方法
- 操作过程 :
-
在 SEER 数据库中查询癌症数据。
-
-
对查询结果(图 4)进行解释。
-
解释含义:(fitten code生成)
1 从2000年到2021年,男性和女性的癌症发病率总体上保持稳定,没有显著的变化
2 男性和女性的发病率在2000年至2017年间没有显著的年度百分比变化
3 这张图表明,在2000年至2021年期间,所有癌症部位的年龄调整发病率在男性和女性中都没有显著变化
2. 使用 GEO 数据库 https://www.ncbi.nlm.nih.gov/geo 下载数据集
-
操作步骤:
-
访问 GEO 页面(图 5)。
-
在 GEO 中检索肝癌(HCC)环状 RNA(circRNA)研究数据(图 6)。
-
选择并查看检索到的数据集(图 7)。
-
查看数据集的详细信息(图 8)。
-
下载数据集(图 9)。
-
-
查看下载的数据集文件(图 10),并对该数据集进行解释。
解释含义:(fitten code生成)
在GEO(Gene Expression Omnibus)数据库中,"ID_REF"通常表示基因或探针的标识符。在你提供的数据集中,"ID_REF"后面的数据是基因或探针的表达值,这些值对应于不同的样本(GSM编号)。
这是一个关于肝癌(HCC)环状RNA(circRNA)研究的表达矩阵。每一行代表一个特定的circRNA(由"ID_REF"标识),每一列代表一个样本(由GSM编号标识)。矩阵中的数值表示相应circRNA在相应样本中的表达水平。
例如,第一行数据:
"ASCRP000002" 9.042573151 9.238902276 8.997313248 9.4371723 8.962706649 9.415486133 9.017848355 9.524889458 9.671877122 9.479558558 9.227469787 9.409693079 8.97187312 8.96956744
CopyInsert
表示circRNA "ASCRP000002"在14个不同样本中的表达值。这些值可以用来分析circRNA在不同样本中的表达差异,从而研究其在肝癌发生发展中的作用。
3. 通过 UCI 机器学习库下载数据集
- 操作步骤 :
-
访问 UCI 机器学习库官网(https://archive.ics.uci.edu/ )。
-
在数据集中搜索并下载任意两个与医药卫生相关的数据集。
-
一个是心脏病数据集,另一个是乳腺癌数据集。download the datasets.
-
-
- 通过文字对数据集进行解释。
解释含义:(fitten code生成)
-
这个打开数据集,自己看吧。这里举一个例子
-