数据分析-前期数据处理

复制代码
   今天找到一份关于医学体检的数据,在数据分析前期工作需要对数据做处理,在这里我们对原始数据做一些处理,将数据处理为可分析的标准数据。下一篇文章做数据的分析。数据想要获取的话可以到我的资源下载。

1 数据读取

python 复制代码
import pandas as pd
data = pd.read_excel(r'E:\学习\项目\数据分析\体检数据\dataset.xls')
print(data.head())

2 定义数据处理函数

数据中有"是否吸烟","是否饮酒","性别"是否,需要将其转化为0 1二分类数据,便于后期分析。

python 复制代码
# 替换特定的值
def replace_value1(row):
    if row['是否吸烟'] == '是': # ['是否吸烟'] == '是':
        return 1
    else:
        return 0
def replace_value2(row):
    if row['是否饮酒'] == '是':
        return 1
    else:
        return 0
def replace_value3(row):
    if row['性别'] == '男':
        return 1
    else:
        return 0

3 数据处理

数据处理,获取出生年月,从事工作时间,体检年份,年龄等

python 复制代码
data['出生年月'] = data['身份证号'].str[4:8]  ## 添加出生年月
data['从事工作年份'] = data['开始从事某工作年份'].astype(str).str[0:4]
data['是否吸烟'] = data.apply(replace_value1, axis=1)
data['是否饮酒'] = data.apply(replace_value2, axis=1)
data['性别'] = data.apply(replace_value3, axis=1)
# for name,group in data.groupby('体检年份'):  ## 体检年份包含字符字段
    # print(name,group)
data['体检年份'] = data['体检年份'].astype(str).replace('2015年','2015')
data['从事工作时间'] = data['体检年份'].astype(float) - data['从事工作年份'].astype(float)
data['年龄'] = data['体检年份'].astype(float) - data['出生年月'].astype(float)

4 清洗后的数据

干净的数据可以直接用来分析

python 复制代码
data_new = data.loc[:,['序号 ', '性别', '是否吸烟', '是否饮酒', '体检年份', '淋巴细胞计数','白细胞计数',  '血小板计数', '出生年月', '从事工作年份', '从事工作时间','年龄']]
print(data_new.head(20))

结果:

下一篇文章会给予处理后的数据进行数据分析。

相关推荐
renhongxia111 小时前
多机器人环境监测中的异质性,用于解决时间冲突任务
人工智能·信息可视化·语言模型·自然语言处理·数据分析·机器人
Brduino脑机接口技术答疑12 小时前
脑机接口数据处理连载(十) 经典分类算法(二):神经网络在脑电数据中的适配——基于运动想象BCI的实战实现
神经网络·分类·数据挖掘
CodeCraft Studio14 小时前
【案例分享】TeeChart数据可视化图表库在高级分析软件中的应用
信息可视化·数据挖掘·数据分析·数据可视化·teechart·高级分析软件·.net图表库
AI浩16 小时前
N-EIoU-YOLOv9:一种用于水稻叶部病害轻量化移动检测的信号感知边界框回归损失
人工智能·数据挖掘·回归
Liue6123123117 小时前
瓦楞纸箱缺陷检测与分类——YOLOv26实战应用详解_1
yolo·分类·数据挖掘
KmjJgWeb17 小时前
YOLOv26赋能车辆表面缺陷检测:我如何实现高精度缺陷分类与识别系统
yolo·分类·数据挖掘
红队it17 小时前
【数据分析+机器学习】基于机器学习的招聘数据分析可视化预测推荐系统(完整系统源码+数据库+开发笔记+详细部署教程)✅
数据库·机器学习·数据分析
STLearner18 小时前
MM 2025 | 时间序列(Time Series)论文总结【预测,分类,异常检测,医疗时序】
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
大雷神18 小时前
HarmonyOS智慧农业管理应用开发教程--高高种地--第14篇:数据分析与可视化
华为·数据分析·harmonyos