数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
TYUT_xiaoming几秒前
ubuntu22.04 GPU环境安装mindspore
linux·人工智能·深度学习
海边夕阳200619 分钟前
【每天一个AI小知识】:什么是自监督学习?
人工智能·经验分享·学习
开发者工具分享21 分钟前
用户调研样本不具代表性时怎么办
人工智能·数据挖掘
稳稳C936 分钟前
02|Langgraph | 从入门到实战 | workflow与Agent
人工智能·langchain·agent·langgraph
聚梦小课堂36 分钟前
2025年11月4日 AI快讯
人工智能·新闻资讯·ai大事件
Dev7z38 分钟前
基于ResNet50和PyTorch的猫狗图像分类系统设计与实现
人工智能·pytorch·分类
lybugproducer39 分钟前
深度学习专题:模型训练的数据并行(三)
人工智能·深度学习·概率论
Gloria_niki1 小时前
图像分割深度学习学习总结
人工智能
武子康1 小时前
AI研究-118 具身智能 Mobile-ALOHA 解读:移动+双臂模仿学习的开源方案(含论文/代码/套件链接)
人工智能·深度学习·学习·机器学习·ai·开源·模仿学习
长桥夜波2 小时前
机器学习日报12
人工智能·机器学习