数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
Ulyanov31 分钟前
用Pyglet打造AI数字猎人:从零开始的Python游戏开发与强化学习实践
开发语言·人工智能·python
lcj092466634 分钟前
磁控U位管理系统与DCIM对接实现:筑牢数据中心精细化运维底座
大数据·数据库·人工智能
swipe39 分钟前
用 Nest + LangChain 打造 OpenClaw 式 Agent 定时任务系统
人工智能·llm·agent
幻风_huanfeng41 分钟前
人工智能之数学基础:动量梯度下降法
人工智能·机器学习·动量梯度下降法
2301_799073021 小时前
基于 Next.js + 火山引擎 AI 的电商素材智能生成工具实战——字节跳动前端训练营成果
javascript·人工智能·火山引擎
xingyuzhisuan2 小时前
租用GPU服务器进行深度学习课程教学的实验环境搭建
运维·人工智能·深度学习·gpu算力
yu85939582 小时前
神经网络遗传算法函数极值寻优(非线性函数极值)
人工智能·深度学习·神经网络
乔江seven2 小时前
【李沐 | 动手学深度学习】12 使用块的网络VGG
人工智能·深度学习·卷积神经网络·vgg网络
haina20192 小时前
《品牌观察》专访海纳AI:引领AI面试测评新时代
人工智能·面试·职场和发展