数据分析与数据挖掘

一、数据分析和数据挖掘的概念

从规范的概念上来说:

数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。

二、数据分析和数据挖掘需要掌握的三方面要素

工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:"树"和"田"

理论:

三、探索性数据分析

(1)、集中趋势

平均值、中位数、众数

(2)、离散程度

表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数

相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示

可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。

常见的一些数据图表:

(5)、总结

四、预测和分类

首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维

相关推荐
吴佳浩5 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒5 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海6 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠6 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao6 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan7 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心7 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai
澄旭7 小时前
一文讲清 MCP:AI 应用连接外部世界的标准协议
人工智能
机器之心7 小时前
不只DeepSeek,阶跃等开源JetSpec:大模型解码提速近10倍
人工智能·openai