大数据5v特性、集群、分布式

目录

数据分析六部曲

[大数据的特点 (5v特征)](#大数据的特点 (5v特征))

分布式与集群的区别

常用的分布式方案


数据分析六部曲

  1. 明确分析目的和思路:确保分析框架的体系化和逻辑性,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。

  2. 数据收集:一般数据来源有数据库、公开出版物、互联网、市场调查等。

  3. 数据处理:主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。是数据分析的基础

  4. 数据分析:用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。其中数据挖掘是一种高级的数据分析方法。

  5. 数据展示:通过表格和图形的方式展示。

  6. 报告撰写:对整个数据分析过程的一个总结与呈现。要有一定的建议或解决方案。

大数据的特点 (5v特征)

  • Volume:数据量大,包括采集、存储和计算的量都非常大;

  • Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;

  • Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;

  • Velocity:数据增长速度快,处理速度也快,时效性要求高;

  • Veracity:数据的准确性和可信赖度,即数据的质量。

分布式与集群的区别

  • 分布式:多台服务器干不同的模块任务,组成一个统一的整体功能;

  • 集群:一台服务器处理请求个数有限,提供服务能力有限,准备多台服务器干同样的的任务。

  • 集群和分布式,都是描述的一组计算机。集群的所有节点跑的是同样的任务,集群本质是多台服务器联合起来独立做相同的任务(多个服务器分担客户端发来的请求) 。而分布式系统的节点跑的是分解后的任务,分布式本质是多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)

  • 以修手机为例:维修手机要分为检测、维修、测试三个环节,当多部手机都需要维修的时候,为了提高效率,雇了10位工程师。如果每个工程师维修时,对每台手机进行检测、维修和测试,这就是集群的工作方式。如果2位工程师负责检测,5位工程师负责维修,剩下的3位工程师负责测试,这就是分布式的工作方

常用的分布式方案

  • 分布式应用和服务 :将应用和服务进行分层和分割,然后将应用和服务模块进行分布式部署。这样做不仅可以提高并发访问能力、减少数据库连接和资源消耗,还能使不同应用复用共同的服务,使业务易于扩展。比如:分布式服务框架 Dubbo。

  • 分布式数据存储 :常常需要处理海量数据,单台计算机往往无法提供足够的内存空间,可以对这些数据进行分布式存储。比如Apache Hadoop HDFS

  • 分布式计算 :分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。比如 Apache Hadoop MapReduce。
相关推荐
计算机毕设定制辅导-无忧学长8 小时前
Grafana 与 InfluxDB 可视化深度集成(二)
信息可视化·数据分析·grafana
Jina AI10 小时前
回归C++: 在GGUF上构建高效的向量模型
人工智能·算法·机器学习·数据挖掘·回归
瓦特what?11 小时前
关于C++的#include的超超超详细讲解
java·开发语言·数据结构·c++·算法·信息可视化·数据挖掘
鹏多多.16 小时前
flutter-使用device_info_plus获取手机设备信息完整指南
android·前端·flutter·ios·数据分析·前端框架
芦骁骏1 天前
自动处理考勤表——如何使用Power Query,步步为营,一点点探索自定义函数
数据分析·excel·powerbi
柑木1 天前
隐私计算-SecretFlow/SCQL-SCQL的两种部署模式
后端·安全·数据分析
计算机源码社1 天前
分享一个基于Hadoop的二手房销售签约数据分析与可视化系统,基于Python可视化的二手房销售数据分析平台
大数据·hadoop·python·数据分析·毕业设计项目·毕业设计源码·计算机毕设选题
楚韵天工1 天前
基于多分类的工业异常声检测及应用
人工智能·深度学习·神经网络·目标检测·机器学习·分类·数据挖掘
Kay_Liang2 天前
从聚合到透视:SQL 窗口函数的系统解读
大数据·数据库·sql·mysql·数据分析·窗口函数
我要学习别拦我~2 天前
读《精益数据分析》:黏性(Stickiness)—— 验证解决方案是否留住用户
经验分享·数据分析