Python数据分析与可视化笔记 二 机器学习与数据分析的关系 数据分析的基本步骤 Python和数据分析

机器学习与数据分析的关系

机器学习一开始研究的目的是让机器具有学习能力从而拥有智能。目前公认的定义是:利用经验来改善计算机系统自身的性能。由于经验在计算机系统中主要以数据形式存在,因此机器学习需要对数据进行分析。

数据分析的定义则是:识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,即从海量数据中找到有用的知识

数据分析的基本步骤

数据分析的基本步骤包括:数据收集-->数据预处理-->数据分析与知识发现-->数据后处理

(1)数据收集

以前的数据收集会有以下一些步骤:抽样、测量、编码、输入、核对。这是一种主动的数据收集方法。

但现有状况是,传感器、照相机等电子设备的普及导致大量的数据涌入,无法像传统的数据收集那样得到少而精的数据,而是大量的、冗余的、体量大且信息量少的数据。从这样的数据中得到所需要的信息的过程是目前数据分析的难点和重点。

(2)数据预处理

数据预处理过程是完成数据到信息 的过程。包括:首先对数据进行初步统计方面的分析 ,得到数据的基本档案;其次分析数据质量 ,从数据的一致性、完整性、准确性 以及及时性 四个方面分析;接着根据发现的数据质量问题对数据进行清洗 ,包括缺失值处理、噪声处理 等;最后对其进行特征提取,为后续的数据分析工作做准备。

(3)数据分析与知识发现

数据分析与知识发现是将预处理后的数据进行进一步的分析,完成信息到认识 的过程。主要分为有监督的分析无监督的分析 。有监督的分析包括分类分析、关联分析和回归分析 ;无监督的分析包括聚类分析、异常检测

(4)数据后处理

主要包括提供数据 给决策支撑系统、数据可视化等。

Python和数据分析

Python有三个优点:面向生产、强大的第三方库支持、胶水语言

相关推荐
xhyu6112 分钟前
【学习笔记】推荐系统 (4.召回:Deep Retrieval、其他召回通道、曝光过滤)
笔记·学习
WW、forever23 分钟前
【服务器】上传服务器中数据至 FigShare(Python)
运维·服务器·python
宝贝儿好26 分钟前
【强化学习】第十章:随机高斯策略
人工智能·python·深度学习·神经网络·机器人·自动驾驶
haosend27 分钟前
【练习版】使用paramiko批量的查询,管理,配置路由器交换机
python·路由器·交换机·网络自动化
Dxy123931021643 分钟前
Python生成随机手机号码
开发语言·python
小帅学编程1 小时前
Python学习
开发语言·python·学习
小龙报1 小时前
【Coze-AI智能体平台】Coze 工作流 = 智能体的 “流程管家”?一文解锁自动化落地新玩法
人工智能·语言模型·自然语言处理·性能优化·数据分析·知识图谱·需求分析
两万五千个小时1 小时前
构建mini Claude Code:08 - Fire and Forget:用后台线程解锁 Multi-Agent 并行执行
人工智能·python·架构
JaydenAI1 小时前
[拆解LangChain执行引擎]支持自然语言查询的长期存储
python·langchain
桂花很香,旭很美2 小时前
Anthropic Agent 工程实战笔记(一)架构与选型
笔记·架构·language model