【架构七】Hadoop

什么是Hadoop?

Hadoop是一个存储系统+计算框架的软件大数据处理框架。

Hadoop的核心,说白了就是HDFSMapReduce ,HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。HBase是一个分布式的、面向列的开源数据库。属于Nosql。

Flink和MapReduce都是用于大数据处理的计算框架,两者的区别?

Flink:是一个分布式计算框架,可以处理海量数据,既可以处理海量数据,也可以做实时流处理。

Flink和MapReduce是两种不同的大数据处理框架。

MapReduce适用于离线批处理任务,具有较高的延迟和较差的迭代计算能力。

Flink是一个流处理框架,适用于实时和近实时数据处理,具有较低的延迟、支持迭代计算和有状态处理等特点。

CDH与Hadoop?

CDH是一个强大的商业版数据中心管理工具。CDH是Hadoop众多分支中的一种,是开源且免费的。

(1)提供了各组能够快速稳定运行的数据计算框架,如Spark;【Apache Spark(通常简称为Spark)是一个开源的大数据处理框架,旨在提供高速、易用和通用的数据处理和分析能力。Spark提供了一个统一的编程模型,支持批处理、流处理、机器学习和图计算等多种数据处理任务。】

(2)使用Apache Impala做为对HDFS、Hbase的高性能SQL查询引擎;【是一个开源的分布式SQL查询引擎,用于在大规模数据集上进行交互式分析和查询。它是为了提供快速的查询性能和低延迟而设计的。】

(3)使用Hive数据仓库工具帮助用户分析数据;【hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。】

(4)提供Hbase分布式列式NoSQL数据库。

相关推荐
极客数模1 分钟前
【浅析赛题,一等奖水平】思路模型数据相关资料!2025 年“大湾区杯”粤港澳金融数学建模竞赛B 题 稳定币的综合评价与发展分析~
大数据·算法·数学建模·金融·数据挖掘·图论·1024程序员节
曼岛_8 分钟前
[系统架构设计师]论文微服务架构知识点
微服务·架构·系统架构
临风赏月20 分钟前
Hudi、Iceberg、Delta Lake、Paimon 建表语法与场景示例
大数据
ZhengEnCi42 分钟前
阿里巴巴六边形架构-从解耦到可测试的架构设计利器
架构
luoganttcc1 小时前
加快高水平科技自立自强,引领发展新质生产力 <十五五 规划节选>
大数据·人工智能·科技
村姑飞来了1 小时前
Kafka4.1.0 队列模式尝鲜
后端·架构
TDengine (老段)2 小时前
益和热力性能优化实践:从 SQL Server 到 TDengine 时序数据库,写入快 20 秒、查询提速 5 倍
大数据·数据库·物联网·性能优化·时序数据库·tdengine·1024程序员节
秋已杰爱2 小时前
技术准备十五:Elasticsearch
大数据·elasticsearch·搜索引擎
青云交3 小时前
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用
java·大数据·智能家居·数据采集·能源消耗模式分析·节能策略制定·节能效果评估
B站计算机毕业设计之家4 小时前
python图像识别系统 AI多功能图像识别检测系统(11种识别功能)银行卡、植物、动物、通用票据、营业执照、身份证、车牌号、驾驶证、行驶证、车型、Logo✅
大数据·开发语言·人工智能·python·图像识别·1024程序员节·识别