医疗数据分析

我要用代码向我喜欢的女孩表白2024-07-01 9:42

我待过2家大公司做医疗的，发现了他们的共性，有很多通用的方法，先说数据，医疗数据中最麻烦的，我觉得就是检验数据。

为什么？因为检查的指标项多，占所有数据的百分之50以上。

血红蛋白、白蛋白、糖蛋白、光蛋白质就有很多，还有血糖，空腹血糖，胰高血糖，血液葡萄糖空腹。

这些有很多名称代表的是同一个意思，这些需要清洗。

导致的原因:医生人工手写、使用了不同的机器、使用了不同的his系统、不同的医院定义的指标不一样、新合并的医院

pmol/L nmol/L g/l

这种很多是同一种，但是单位不一样，分析就没法分析。

分析之前一定要做的，提取数据，数据清洗，产生新数据表

提取数据：检验项、数据名称、单位、指标值

**这几个一定要有，**为什么？如果没有检验项，至少名称必须有。

有时候不同的检验项目，但是数据名称可能相同，那数据清洗的时候就不好区分是哪一批数据。

名称和数值必须要有，这个不用说了，单位必须有，因为不同单位的指标值差异很大，没有单位的检验数据，和脏数据没有区别。

数据清洗: 根据检验项目、名称、做聚合，让医生做判断，得到唯一的检验项目。

注意：医生判断完，一定要自己判断一遍！一定要自己判断一遍！一定要自己判断一遍！如果他说的有重复或者还是有歧义，那么数据分析了，你用它的数据就全是有问题的，责任还是你。记住一句话：医生他只负责看病，处理数据是你的工作。

得到了医生确定和你自己检查后：多个歧义名称对应唯一检查的表后就能聚合了

聚合：

就是去掉歧义的指标，方法很多，自己想办法，做之前一定要先分析数据分布，和指标的数据情况。然后进行单位转换保证唯一指标。这一步是比较耗时的

数据分析，现在看你的业务了，是用随机森林呢，还是方差，还是其他的统计学算法。