医疗数据分析

我待过2家大公司做医疗的,发现了他们的共性,有很多通用的方法,先说数据,医疗数据中最麻烦的,我觉得就是检验数据。

为什么?因为检查的指标项多,占所有数据的百分之50以上。

指标歧义:

血红蛋白、白蛋白、糖蛋白、光蛋白质就有很多,还有血糖,空腹血糖,胰高血糖,血液葡萄糖空腹。

这些有很多名称代表的是同一个意思,这些需要清洗。

导致的原因:医生人工手写、使用了不同的机器、使用了不同的his系统、不同的医院定义的指标不一样、新合并的医院

单位转换

pmol/L nmol/L g/l

这种很多是同一种,但是单位不一样,分析就没法分析。


分析之前一定要做的,提取数据,数据清洗,产生新数据表


提取数据:检验项、数据名称、单位、指标值

**这几个一定要有,**为什么?如果没有检验项,至少名称必须有。

有时候不同的检验项目,但是数据名称可能相同,那数据清洗的时候就不好区分是哪一批数据。

名称和数值必须要有,这个不用说了,单位必须有,因为不同单位的指标值差异很大,没有单位的检验数据,和脏数据没有区别。


数据清洗: 根据检验项目、名称、做聚合,让医生做判断,得到唯一的检验项目。

注意:医生判断完,一定要自己判断一遍!一定要自己判断一遍!一定要自己判断一遍!如果他说的有重复或者还是有歧义,那么数据分析了,你用它的数据就全是有问题的,责任还是你。记住一句话:医生他只负责看病,处理数据是你的工作

得到了医生确定和你自己检查后:多个歧义名称对应唯一检查的表后就能聚合了

聚合:

就是去掉歧义的指标,方法很多,自己想办法,做之前一定要先分析数据分布,和指标的数据情况。然后进行单位转换保证唯一指标。这一步是比较耗时的


数据分析,现在看你的业务了,是用随机森林呢,还是方差,还是其他的统计学算法。

相关推荐
得物技术1 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康2 小时前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法