数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
ZhengEnCi18 小时前
09c-斯坦福CS336作业二:系统与分布式训练
人工智能
阿里云大数据AI技术18 小时前
用 SQL 解锁多模态数据分析:Hologres 让图片、语音、视频变成结构化洞察
人工智能
阿里云大数据AI技术19 小时前
EMR Serverless StarRocks 湖仓多模态检索:One SQL on One Data,实现全文 + 标量 + 向量三路混合检索
人工智能
冬奇Lab20 小时前
Skill 系列(02):Skill 安全风险——三类攻击面的实战测试
人工智能·安全·开源
冬奇Lab20 小时前
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
人工智能·开源·claude
米小虾20 小时前
智谱港股盘中市值突破万亿港元!GLM-5.2 开源引爆国产 AI 价值重估
人工智能·chatglm (智谱)
阿里云大数据AI技术20 小时前
义乌小商品城基于MaxFrame AI Function的亿级AI 数据产线提速之路
人工智能
甲维斯21 小时前
用AI还原《坦克大战》并3D化升级!
前端·人工智能·游戏开发
IT_陈寒1 天前
SpringBoot自动配置坑了我一晚上,原来问题出在这
前端·人工智能·后端