基于机器学习的糖尿病预测

目的:根据病人的入院记录的标签判断病人在短期时间内是否可能再次入院

Y标签:按照患者是否会在 30 天内再次入院划分为:0,1

包含特征:种族、性别、年龄、入院类型、住院时间、检测次数、HbA1c 检测结果、胰岛素释放试验结果、用药数量、糖尿病药物、门诊诊断记录、急

诊就诊数等47个属性

缺失值处理

1、缺失值处理思路

缺失类型:完全随机缺失、随机缺失、非随机缺失

2、缺失值的处理方法

计算每列缺失比例

  • 缺失率极高且该特征并不重要 → 考虑直接删掉
  • 缺失率极高且该特征重要→ 特征保留
  • 缺失率低 → 考虑插补(填充)/样本删除/不做处理
  • 缺失率中等时,不宜插补

如果缺失本身可能有业务意义 → 保留缺失标志作为一个新特征(-8887)

3、缺失值处理方案

删除法:横向删样本(适用于缺失比例极低,不影响样本代表性),纵向删变量(高缺失)

简单插补:均值、中位数、众数、指定值

高级插补:KNN插补,回归插补,多重插补,基于模型的插补(XGB等)

缺失值作为信息保留:例如信用评分系统里"不提供收入信息"可能意味着高风险。

在算法中直接处理缺失:树模型能自动处理分支

其他:预测场景中注意,训练集和测试集处理要一致

【论文中的考虑】

1、选出缺失的特征(47个特征中有9个特征有缺失(3极低+3中等+3高缺失))

2、基于缺失率与含义,删除 weight,payer_code、medical_specialty 进行删除处理 ,因

为 payer_code 表示支付类型,例如医疗保险和自付费用;medical_specialty 对应着接诊医生的专业领

域。这些变量与预测没有显著的关系且缺失比例较高,可以进行删除处理。

高缺失的糖化血红蛋白检测结果范围与max_glu_serum 表示病人的血糖检测结果范围保留

3、其他处理:缺失率较低的采取了样本删除+填充的方式(删除的是性别空的几个;填充是众数填充,虽然数值型,但实际含义就几个)

数据 类型 转换

区间中值代替区间(年龄和收入用的多);论文中仅针对年龄

数据 均衡

初试比例9:1

欠采样

四、算法介绍

LightGBM 在理解上可以看做为 XGBoost + Histogram + GOSS + EFB

相关推荐
NAGNIP3 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab4 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab4 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP8 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年8 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼8 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS9 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区10 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈10 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang10 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx