《PySpark大数据分析实战》-18.什么是数据分析

📋 博主简介

💖 作者简介：大家好，我是wux_labs。😜
热衷于各种主流技术，热爱数据科学、机器学习、云计算、人工智能。
通过了TiDB数据库专员（PCTA）、TiDB数据库专家（PCTP）、TiDB数据库认证SQL开发专家（PCSD）认证。
通过了微软Azure开发人员、Azure数据工程师、Azure解决方案架构师专家认证。
对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Databricks的使用有丰富的经验。

📝 个人主页：wux_labs，如果您对我还算满意，请关注一下吧~🔥

📝 个人社区：数据科学社区，如果您是数据科学爱好者，一起来交流吧~🔥

🎉 请支持我：欢迎大家点赞👍+收藏⭐️+吐槽📝，您的支持是我持续创作的动力~🔥

《PySpark大数据分析实战》-18.什么是数据分析

《PySpark大数据分析实战》-18.什么是数据分析

《PySpark大数据分析实战》-18.什么是数据分析

前言

大家好！今天为大家分享的是《PySpark大数据分析实战》第3章第1节的内容：什么是数据分析。

图书在：当当、京东、机械工业出版社以及各大书店有售！

数据分析是人们通过收集、清洗、转换、处理、统计和可视化等方式，从大量的数据中提取有用的信息的过程。Python是数据分析的重要程序语言，Python提供了一系列数据分析工具方便人们对数据进行处理及可视化。本章将介绍数据分析的基础知识以及Python中的常用的数据分析工具，掌握好这些知识及工具对数据分析非常有用。

什么是数据分析

数据分析是指使用适当的统计和计算方法对数据进行处理、解释、推理和预测的过程。通过对数据的分析，人们可以发现数据之间的关系、趋势等，并以此作出决策、指导实践、预测未来等。数据分析的应用范围非常广泛，可以用于商业、金融、科学等领域。

数据分析的基本处理流程通常可以分为以下几个步骤：

1）收集数据。需要明确分析的数据类型和来源，然后收集数据，收集的数据可以是结构化数据，例如表格和数据库的数据，也可以是非结构化数据，例如文本和图像等。

2）清洗数据。收集到的数据可能存在缺失值、重复值、错误数据等问题，需要进行数据清洗，包括去除无用数据、去除重复值、填充缺失值等操作。

3）数据预处理。数据预处理是为了让数据更适合后续的分析，包括特征提取、特征缩放、数据转换等。

4）分析处理。在数据预处理后，使用统计分析、机器学习等方法，进行数据分析和挖掘，找出数据之间的关系和规律，进行预测和决策。

5）结果呈现。将分析结果可视化呈现，包括数据报表、图表、图像等，使得分析结果更加直观、易于理解和传达。

结束语

好了，感谢大家的关注，今天就分享到这里了，更多详细内容，请阅读原书或持续关注专栏。