大数据5v特性、集群、分布式

木鬼与槐2024-09-03 23:20

目录

数据分析六部曲

[大数据的特点（5v特征）](#大数据的特点（5v特征）)

分布式与集群的区别

常用的分布式方案

数据分析六部曲

明确分析目的和思路：确保分析框架的体系化和逻辑性，简单来说就是先分析什么，后分析什么，使得各个分析点之间具有逻辑联系。
数据收集：一般数据来源有数据库、公开出版物、互联网、市场调查等。
数据处理：主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。是数据分析的基础。
数据分析：用适当的分析方法及工具，对处理过的数据进行分析，提取有价值的信息，形成有效结论的过程。其中数据挖掘是一种高级的数据分析方法。
数据展示：通过表格和图形的方式展示。
报告撰写：对整个数据分析过程的一个总结与呈现。要有一定的建议或解决方案。

大数据的特点（5v特征）

Volume：数据量大，包括采集、存储和计算的量都非常大；
Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据；
Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；
Velocity：数据增长速度快，处理速度也快，时效性要求高；
Veracity：数据的准确性和可信赖度，即数据的质量。

分布式与集群的区别

分布式：多台服务器干不同的模块任务，组成一个统一的整体功能；
集群：一台服务器处理请求个数有限，提供服务能力有限，准备多台服务器干同样的的任务。
集群和分布式，都是描述的一组计算机。集群的所有节点跑的是同样的任务，集群本质是多台服务器联合起来独立做相同的任务(多个服务器分担客户端发来的请求) 。而分布式系统的节点跑的是分解后的任务,分布式本质是多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)
以修手机为例：维修手机要分为检测、维修、测试三个环节，当多部手机都需要维修的时候,为了提高效率，雇了10位工程师。如果每个工程师维修时，对每台手机进行检测、维修和测试，这就是集群的工作方式。如果2位工程师负责检测，5位工程师负责维修，剩下的3位工程师负责测试，这就是分布式的工作方

常用的分布式方案

分布式应用和服务 ：将应用和服务进行分层和分割，然后将应用和服务模块进行分布式部署。这样做不仅可以提高并发访问能力、减少数据库连接和资源消耗，还能使不同应用复用共同的服务，使业务易于扩展。比如：分布式服务框架 Dubbo。
分布式数据存储 ：常常需要处理海量数据，单台计算机往往无法提供足够的内存空间，可以对这些数据进行分布式存储。比如Apache Hadoop HDFS。

分布式计算 ：分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。比如 Apache Hadoop MapReduce。

上一篇：tcp/udp 可视化调试工具； tcp/udp 发送客户端；查看tcp连接；netassist；packet sender；tcp view；

下一篇：yolov9目标检测pyside6可视化检测界面python源码-用于计数统计-摄像头可用

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？