医学数据分析实训 项目一 医学数据采集

项目一 医学数据采集

一、实践目的

  1. 了解医学数据的特点;
  2. 熟悉常见的医学公共数据库的使用方法;
  3. 掌握获取医学数据的方法;

二、实践平台

  1. 操作系统:Windows10 及以上
  2. Python 版本:3.8.x 及以上
  3. PyCharm 或 Anoconda 集成环境

三、实践内容

医学数据采集实验的数据来源广泛,主要包括以下几个方面:

  • 患者数据:通过电子病历系统、患者自主记录等方式收集患者的临床症状、体征、病史、用药情况等信息;
  • 医疗设备数据:利用各种医疗设备(如心电图机、超声仪、CT 扫描仪等)实时监测患者的生理参数和健康状况,生成大量医学图像和数据;
  • 实验室数据:通过实验室检测获取患者的生化指标、遗传学信息、微生物学结果等数据;
  • 外部数据源:包括公共卫生数据库、医学研究数据库等,这些数据库包含了大量的医学研究成果和临床数据,为医学数据采集实验提供了丰富的资源。

1. 熟悉常见医学公共数据库的使用方法

(1)熟悉 Kaplan-Meier Plotter 平台 https://kmplot.com/analysis/ 的使用
  • 操作过程
    • 访问 Kaplan-Meier Plotter 平台首页(图 1)。

    • 输入对应参数(图 2),如基因 STAT2 和乳腺癌生存率的相关性。

    • 生成生存率关系图(图 3),并通过文字对结果进行解释。


解释含义:(fitten code生成)

1 高表达STAT2基因的乳腺癌患者群体的生存率显著高于低表达

2 体这种差异在统计学上是显著的(Log-rank P值为9e-11)

3 STAT2基因的高表达可能与乳腺癌患者更好的生存率相关

(2)熟悉 SEER 数据库 https://seer.cancer.gov/data-software/ 的使用方法
  • 操作过程
    • 在 SEER 数据库中查询癌症数据。


    • 对查询结果(图 4)进行解释。

解释含义:(fitten code生成)

1 从2000年到2021年,男性和女性的癌症发病率总体上保持稳定,没有显著的变化

2 男性和女性的发病率在2000年至2017年间没有显著的年度百分比变化

3 这张图表明,在2000年至2021年期间,所有癌症部位的年龄调整发病率在男性和女性中都没有显著变化

2. 使用 GEO 数据库 https://www.ncbi.nlm.nih.gov/geo 下载数据集

  • 操作步骤

    • 访问 GEO 页面(图 5)。

    • 在 GEO 中检索肝癌(HCC)环状 RNA(circRNA)研究数据(图 6)。

    • 选择并查看检索到的数据集(图 7)。

    • 查看数据集的详细信息(图 8)。

    • 下载数据集(图 9)。

  • 查看下载的数据集文件(图 10),并对该数据集进行解释。

解释含义:(fitten code生成)

在GEO(Gene Expression Omnibus)数据库中,"ID_REF"通常表示基因或探针的标识符。在你提供的数据集中,"ID_REF"后面的数据是基因或探针的表达值,这些值对应于不同的样本(GSM编号)。

这是一个关于肝癌(HCC)环状RNA(circRNA)研究的表达矩阵。每一行代表一个特定的circRNA(由"ID_REF"标识),每一列代表一个样本(由GSM编号标识)。矩阵中的数值表示相应circRNA在相应样本中的表达水平。

例如,第一行数据:

"ASCRP000002" 9.042573151 9.238902276 8.997313248 9.4371723 8.962706649 9.415486133 9.017848355 9.524889458 9.671877122 9.479558558 9.227469787 9.409693079 8.97187312 8.96956744

CopyInsert

表示circRNA "ASCRP000002"在14个不同样本中的表达值。这些值可以用来分析circRNA在不同样本中的表达差异,从而研究其在肝癌发生发展中的作用。

3. 通过 UCI 机器学习库下载数据集

  • 操作步骤
    • 访问 UCI 机器学习库官网(https://archive.ics.uci.edu/ )。

    • 在数据集中搜索并下载任意两个与医药卫生相关的数据集。

    • 一个是心脏病数据集,另一个是乳腺癌数据集。download the datasets.



  • 通过文字对数据集进行解释。

解释含义:(fitten code生成)

  • 这个打开数据集,自己看吧。这里举一个例子



相关推荐
一叶屋檐3 分钟前
Neo4j 图书馆借阅系统知识图谱设计
服务器·数据库·cypher
好吃的肘子1 小时前
MongoDB 应用实战
大数据·开发语言·数据库·算法·mongodb·全文检索
weixin_472339461 小时前
MySQL MCP 使用案例
数据库·mysql
lqlj22332 小时前
Spark SQL 读取 CSV 文件,并将数据写入 MySQL 数据库
数据库·sql·spark
遗憾皆是温柔3 小时前
MyBatis—动态 SQL
java·数据库·ide·sql·mybatis
未来之窗软件服务3 小时前
Cacti 未经身份验证SQL注入漏洞
android·数据库·sql·服务器安全
fengye2071613 小时前
在MYSQL中导入cookbook.sql文件
数据库·mysql·adb
Ailovelearning4 小时前
neo4j框架:ubuntu系统中neo4j安装与使用教程
数据库·neo4j
_星辰大海乀5 小时前
表的设计、聚合函数
java·数据结构·数据库·sql·mysql·数据库开发
未来之窗软件服务5 小时前
solidwors插件 开发————仙盟创梦IDE
前端·javascript·数据库·ide·仙盟创梦ide