数据分析与数据挖掘

一、数据分析和数据挖掘的概念

从规范的概念上来说:

数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。

二、数据分析和数据挖掘需要掌握的三方面要素

工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:"树"和"田"

理论:

三、探索性数据分析

(1)、集中趋势

平均值、中位数、众数

(2)、离散程度

表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数

相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示

可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。

常见的一些数据图表:

(5)、总结

四、预测和分类

首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维

相关推荐
金井PRATHAMA1 小时前
描述逻辑(Description Logic)对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
Rock_yzh1 小时前
AI学习日记——参数的初始化
人工智能·python·深度学习·学习·机器学习
CiLerLinux2 小时前
第四十九章 ESP32S3 WiFi 路由实验
网络·人工智能·单片机·嵌入式硬件
七芒星20234 小时前
多目标识别YOLO :YOLOV3 原理
图像处理·人工智能·yolo·计算机视觉·目标跟踪·分类·聚类
Learn Beyond Limits4 小时前
Mean Normalization|均值归一化
人工智能·神经网络·算法·机器学习·均值算法·ai·吴恩达
ACERT3335 小时前
5.吴恩达机器学习—神经网络的基本使用
人工智能·python·神经网络·机器学习
韩立学长5 小时前
【开题答辩实录分享】以《基于python的奶茶店分布数据分析与可视化》为例进行答辩实录分享
开发语言·python·数据分析
C嘎嘎嵌入式开发5 小时前
(一) 机器学习之深度神经网络
人工智能·神经网络·dnn
Aaplloo5 小时前
【无标题】
人工智能·算法·机器学习
大模型任我行5 小时前
复旦:LLM隐式推理SIM-CoT
人工智能·语言模型·自然语言处理·论文笔记