数据挖掘一般框架

1. 数据探索

1.1 数据整体情况介绍

panda库中的to_datatime可以将时间戳转换成日常的时间格式

1.2 数据概况

查看数据量大小

查看前五行

查看每列属性含义

1.3 探索性数据分析(EDA)

1.3.1 缺失值可视化

利用 missingno 包

1.3.2 查看变量分布

在scipy模块中有 johnsonsu、norm、lognorm可以将数据分布绘出

2. 数据预处理

2.1 划分测试机何训练集

2.2 处理缺失值

2.3 数据清洗

处理"脏数据",脏数据是指不符合现实逻辑且会对模型预测效果产生干扰的数据。

3. 查看特征相关性

3.1 相关性计算

3.2 热力图展示

3.3 查看定类数据相关性

3.4 回归分析

4. 模型建立

4.1 Lasso 回归

4.2 特征重要性分析

绘制了交叉验证条形图

相关推荐
NAGNIP5 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab6 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab6 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP10 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年10 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼10 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS10 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区11 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈11 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang12 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx