数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
深圳多奥智能一卡(码、脸)通系统10 分钟前
智能二维码QR\刷IC卡\人脸AI识别梯控系统功能设计需基于模块化架构,整合物联网、生物识别、权限控制等技术,以下是多奥分层次的系统设计框架
人工智能·门禁·电梯门禁·二维码梯控·梯控·电梯
批量小王子13 分钟前
2025-08-19利用opencv检测图片中文字及图片的坐标
人工智能·opencv·计算机视觉
没有梦想的咸鱼185-1037-16631 小时前
SWMM排水管网水力、水质建模及在海绵与水环境中的应用
数据仓库·人工智能·数据挖掘·数据分析
即兴小索奇1 小时前
【无标题】
人工智能·ai·商业·ai商业洞察·即兴小索奇
国际学术会议-杨老师1 小时前
2025年计算机视觉与图像国际会议(ICCVI 2025)
人工智能·计算机视觉
欧阳小猜2 小时前
深度学习②【优化算法(重点!)、数据获取与模型训练全解析】
人工智能·深度学习·算法
fsnine2 小时前
深度学习——神经网络
人工智能·深度学习·神经网络
有Li2 小时前
CXR-LT 2024:一场关于基于胸部X线的长尾、多标签和零样本疾病分类的MICCAI挑战赛|文献速递-深度学习人工智能医疗图像
论文阅读·人工智能·算法·医学生
的小姐姐2 小时前
AI与IIOT如何重新定义设备维护系统?_璞华大数据Hawkeye平台
大数据·人工智能
arron88992 小时前
(双类别检测:电动车 + 头部,再对头部分类)VS 单类别检测 + ROI 分类器 方案
人工智能