数据分析与数据挖掘

一、数据分析和数据挖掘的概念

从规范的概念上来说:

数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。

二、数据分析和数据挖掘需要掌握的三方面要素

工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:"树"和"田"

理论:

三、探索性数据分析

(1)、集中趋势

平均值、中位数、众数

(2)、离散程度

表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数

相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示

可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。

常见的一些数据图表:

(5)、总结

四、预测和分类

首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维

相关推荐
钓了猫的鱼儿3 分钟前
基于深度学习+AI的蚕病害目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
MY_TEUCK5 分钟前
【MY_TRUCK - AI 应用】2026 AI 编程工具全景:Copilot 线与 Cursor 线两大主流、行业现状与人群选型
人工智能·ai·copilot·ai编程
janeysj8 分钟前
langgraph学习笔记(一)
人工智能·langchain
阿里云大数据AI技术10 分钟前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark
ZzT17 分钟前
中转站到底靠不靠谱?我写了个测评工具,先测了微元算力(weytoken)
人工智能·程序员·ai编程
甲维斯23 分钟前
Opus4.8 才是真的夯爆了!实测 9个例子表现出众!
前端·人工智能
沈麽鬼25 分钟前
豆包?哦不,是我菜包!新手AI全栈实战:Cursor开发复刻AI聊天助手
人工智能·ai编程·vibecoding
木卫二号Coding32 分钟前
OpenCloudOS9(RHEL9系 dnf)安装 Hermes-Agent完整教程
人工智能