数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
是有头发的程序猿几秒前
AI Agent电商自动化实战:淘宝商品详情API无人化采集与分析教程
运维·人工智能·自动化
EAIReport9 分钟前
边缘计算EdgeAI:从云端下沉到终端的智能革命
人工智能·边缘计算
在繁华处9 分钟前
Java从零到熟练(十二):Java与AI工具整合
java·人工智能·python
csdn小瓯11 分钟前
告别 Value Model:深度解析 GRPO 与 PPO 的核心差异
人工智能
库拉大叔11 分钟前
GPT-5.5办公落地全解析:四大场景实测+避坑指南+多模型策略
人工智能·gpt
2601_9599862419 分钟前
M4Markets:把信息透明度做到位——路径分析与提示整理
大数据·人工智能
YueJoy.AI19 分钟前
敏捷需求优先级矩阵驱动迭代规划
人工智能·ai·语言模型
豆豆20 分钟前
当GEO遇见CMS:企业网站管理系统如何适配AI大模型?
人工智能·cms·ai大模型·seo优化·geo优化·企业建站·企业网站管理系统
程序猿乐锅25 分钟前
吴恩达Prompt提示词课有感
人工智能·prompt
倔强的石头10628 分钟前
Dify 接入蓝耘 MaaS:从 0 搭建一个企业知识库问答助手
人工智能·dify·蓝耘