Python数据分析与可视化笔记 二 机器学习与数据分析的关系 数据分析的基本步骤 Python和数据分析

机器学习与数据分析的关系

机器学习一开始研究的目的是让机器具有学习能力从而拥有智能。目前公认的定义是:利用经验来改善计算机系统自身的性能。由于经验在计算机系统中主要以数据形式存在,因此机器学习需要对数据进行分析。

数据分析的定义则是:识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,即从海量数据中找到有用的知识

数据分析的基本步骤

数据分析的基本步骤包括:数据收集-->数据预处理-->数据分析与知识发现-->数据后处理

(1)数据收集

以前的数据收集会有以下一些步骤:抽样、测量、编码、输入、核对。这是一种主动的数据收集方法。

但现有状况是,传感器、照相机等电子设备的普及导致大量的数据涌入,无法像传统的数据收集那样得到少而精的数据,而是大量的、冗余的、体量大且信息量少的数据。从这样的数据中得到所需要的信息的过程是目前数据分析的难点和重点。

(2)数据预处理

数据预处理过程是完成数据到信息 的过程。包括:首先对数据进行初步统计方面的分析 ,得到数据的基本档案;其次分析数据质量 ,从数据的一致性、完整性、准确性 以及及时性 四个方面分析;接着根据发现的数据质量问题对数据进行清洗 ,包括缺失值处理、噪声处理 等;最后对其进行特征提取,为后续的数据分析工作做准备。

(3)数据分析与知识发现

数据分析与知识发现是将预处理后的数据进行进一步的分析,完成信息到认识 的过程。主要分为有监督的分析无监督的分析 。有监督的分析包括分类分析、关联分析和回归分析 ;无监督的分析包括聚类分析、异常检测

(4)数据后处理

主要包括提供数据 给决策支撑系统、数据可视化等。

Python和数据分析

Python有三个优点:面向生产、强大的第三方库支持、胶水语言

相关推荐
五味香3 分钟前
Java学习,List 元素替换
android·java·开发语言·python·学习·golang·kotlin
计算机徐师兄18 分钟前
Python基于Django的花卉商城系统的设计与实现(附源码,文档说明)
python·django·python django·花卉商城系统·花卉·花卉商城·python花卉商城系统
机械心30 分钟前
pytorch深度学习模型推理和部署、pytorch&ONNX&tensorRT模型转换以及python和C++版本部署
pytorch·python·深度学习
ALISHENGYA1 小时前
精讲Python之turtle库(二):设置画笔颜色、回旋伞、变色回旋伞、黄色三角形、五角星,附源代码
python·turtle
追Star仙1 小时前
基于Qt中的QAxObject实现指定表格合并数据进行word表格的合并
开发语言·笔记·qt·word
drebander1 小时前
PyTorch 模型 浅读
pytorch·python·大模型
securitor1 小时前
【java】IP来源提取国家地址
java·前端·python
Dipeak数巅科技1 小时前
数巅科技连续中标大模型项目 持续助力央国企数智化升级
大数据·人工智能·数据分析
Ray.19982 小时前
Flink 的核心特点和概念
大数据·数据仓库·数据分析·flink
安冬的码畜日常2 小时前
【Vim Masterclass 笔记24】S10L43 + L44:同步练习10 —— 基于 Vim 缓冲区的各类基础操作练习(含点评课)
笔记·vim·自学笔记·vim同步练习·vim缓冲区·vim buffer·vim缓冲区练习