2024.9.24 数据分析

资料

111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例-CSDN博客

【数据挖掘六大项目实战】敢说这是全B站讲的最详细最通俗易懂的数据挖掘教程!整整60集!学不会来找我!-数据挖掘、数据挖掘与数据分析、人工智能、python_哔哩哔哩_bilibili


数据挖掘流程

(1)数据读取

  • 读取数据,展示
  • 统计数据各项指标
  • 明确数据规模与要完成的任务

(2)特征理解分析

  • 单特征分析,逐个变量分析其对结果的影响
  • 多变量统计分析,综合考虑多种情况影响
  • 统计绘图得结果

(3)数据清洗与预处理

  • 对缺失值进行填充
  • 特征标准化/归一化
  • 筛选有价值的特征
  • 分析特征之间的相关性

(4)建立模型

  • 特征数据与标签准备
  • 数据集切分
  • 多种建模算法对比
  • 集成策略等方案改进

挑选兵器

python

  • Numpy-科学计算库,用于矩阵运算
  • Pandas-数据分析处理库
  • Matplotlib-可视化库
  • Seaborn-可视化库
  • Scikit-learn-机器学习库,机器学习算法

Sklearn scikit-learn: machine learning in Python --- scikit-learn 1.5.2 documentation

(针对感兴趣的领域,练习,看例子)

数据集可以从Kaggle下载(泰坦尼克号)---流程案例

(1)

python 复制代码
# 读取数据
data = pandas.read_csv('train.csv')
data.head()
python 复制代码
# 看缺失值
data.isnull().sum()
python 复制代码
# 整体看数据
data.describe()
  • 可以绘图展示
  • 分析问题

(2)

数据特征分为:连续值和离散值

  • 离散值:性别、登船地点
python 复制代码
data.groupby(['Sex','Survived'])['Survived'].count()

Pclass-船舱等级跟获救情况的关系 crosstab

船舱等级结合性别因素 crosstab

crosstab之后可以通过画图展示得更直观一些

++可以得出一些结论(帮助建立模型)++

  • 连续值:年龄,船票价格

平均年龄、最小年龄、最大年龄

​​​​​​小提琴图

++可以得出一些结论(帮助建立模型)++

(3)

缺失值填充

  • 平均值
  • 经验值
  • 回归模型预测
  • 删除掉

年龄缺失值填充:年龄区间比较大,可以根据男女来填充年龄(尽可能利用已有的数据信息使得填充的值更加合理)根据姓名的昵称

可以采用多种缺失值填充方法(多个副本)

码头缺失值填充:经验值填充,可以根据与其他特征之间的分组关系获取"经验"


seaborn画图

这个部分可以对不同特征之间进行绘图,趋势对比,观察,选择有用的特征

(4)模型选择

(后面的课程没有了T-T)

相关推荐
闲人编程6 小时前
数据分析案例:环境数据分析
python·数据挖掘·数据分析·pandas·数据预处理·环境数据
没有梦想的咸鱼185-1037-16639 小时前
【大模型ChatGPT+R-Meta】AI赋能R-Meta分析核心技术:从热点挖掘到高级模型、助力高效科研与论文发表“
人工智能·随机森林·机器学习·chatgpt·数据分析·r语言
正在读博的学术灰姑娘13 小时前
6.1/Q1,浙江医院用NHANES:膳食中摄入黄酮类化合物有助于延缓生物衰老过程
数据库·数据挖掘·逻辑回归·健康医疗·数据库开发
正在读博的学术灰姑娘14 小时前
4.8/Q1,中山大学用NHANES:膳食烟酸摄入量与非酒精性脂肪肝之间的关联
数据挖掘·线性回归·健康医疗·数据库开发·时序数据库
爱思德学术14 小时前
CCF推荐学术会议-B(数据库/数据挖掘/内容检索):ISWC 2025
人工智能·数据挖掘
LeeZhao@14 小时前
【数据挖掘】时间序列预测-时间序列预测策略
人工智能·自然语言处理·数据挖掘·agi
IT古董1 天前
【漫话机器学习系列】227.信息检索与数据挖掘中的常用加权技术(TF-IDF)
机器学习·数据挖掘·tf-idf
禺垣1 天前
AdaBoost算法的原理及Python实现
人工智能·python·算法·机器学习·数据挖掘·adaboost·集成学习
lilye661 天前
精益数据分析(34/126):深挖电商运营关键要点与指标
大数据·数据挖掘·数据分析
灏瀚星空1 天前
量化交易之数学与统计学基础2.3——线性代数与矩阵运算 | 线性方程组
笔记·python·信息可视化·数据挖掘·回归·开源·最小二乘法