数据分析与数据挖掘

一、数据分析和数据挖掘的概念

从规范的概念上来说:

数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。

二、数据分析和数据挖掘需要掌握的三方面要素

工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:"树"和"田"

理论:

三、探索性数据分析

(1)、集中趋势

平均值、中位数、众数

(2)、离散程度

表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数

相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示

可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。

常见的一些数据图表:

(5)、总结

四、预测和分类

首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维

相关推荐
飞哥数智坊7 小时前
GPT-5-Codex 发布,Codex 正在取代 Claude
人工智能·ai编程
倔强青铜三7 小时前
苦练Python第46天:文件写入与上下文管理器
人工智能·python·面试
虫无涯8 小时前
Dify Agent + AntV 实战:从 0 到 1 打造数据可视化解决方案
人工智能
Dm_dotnet10 小时前
公益站Agent Router注册送200刀额度竟然是真的
人工智能
算家计算10 小时前
7B参数拿下30个世界第一!Hunyuan-MT-7B本地部署教程:腾讯混元开源业界首个翻译集成模型
人工智能·开源
机器之心10 小时前
LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
人工智能·openai
Juchecar11 小时前
交叉熵:深度学习中最常用的损失函数
人工智能
林木森ai12 小时前
爆款AI动物运动会视频,用Coze(扣子)一键搞定全流程(附保姆级拆解)
人工智能·aigc
聚客AI12 小时前
🙋‍♀️Transformer训练与推理全流程:从输入处理到输出生成
人工智能·算法·llm
BeerBear14 小时前
【保姆级教程-从0开始开发MCP服务器】一、MCP学习压根没有你想象得那么难!.md
人工智能·mcp