【架构七】Hadoop

什么是Hadoop?

Hadoop是一个存储系统+计算框架的软件大数据处理框架。

Hadoop的核心,说白了就是HDFSMapReduce ,HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。HBase是一个分布式的、面向列的开源数据库。属于Nosql。

Flink和MapReduce都是用于大数据处理的计算框架,两者的区别?

Flink:是一个分布式计算框架,可以处理海量数据,既可以处理海量数据,也可以做实时流处理。

Flink和MapReduce是两种不同的大数据处理框架。

MapReduce适用于离线批处理任务,具有较高的延迟和较差的迭代计算能力。

Flink是一个流处理框架,适用于实时和近实时数据处理,具有较低的延迟、支持迭代计算和有状态处理等特点。

CDH与Hadoop?

CDH是一个强大的商业版数据中心管理工具。CDH是Hadoop众多分支中的一种,是开源且免费的。

(1)提供了各组能够快速稳定运行的数据计算框架,如Spark;【Apache Spark(通常简称为Spark)是一个开源的大数据处理框架,旨在提供高速、易用和通用的数据处理和分析能力。Spark提供了一个统一的编程模型,支持批处理、流处理、机器学习和图计算等多种数据处理任务。】

(2)使用Apache Impala做为对HDFS、Hbase的高性能SQL查询引擎;【是一个开源的分布式SQL查询引擎,用于在大规模数据集上进行交互式分析和查询。它是为了提供快速的查询性能和低延迟而设计的。】

(3)使用Hive数据仓库工具帮助用户分析数据;【hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。】

(4)提供Hbase分布式列式NoSQL数据库。

相关推荐
一个处女座的程序猿O(∩_∩)O8 分钟前
Yarn 架构深度解析:核心组件与工作机制详解
架构
说私域9 分钟前
智能名片链动2+1模式S2B2C商城小程序:构建私域生态“留”量时代的新引擎
大数据·人工智能·小程序
碧海潮生_CC12 分钟前
【CUDA笔记】03 CUDA GPU 架构与一般的程序优化思路(下)
笔记·架构·cuda
XSKY星辰天合14 分钟前
星飞全闪以架构创新对冲 SSD 涨价,实现更低 TCO
架构·分布式存储·星飞·全闪
paperxie_xiexuo1 小时前
如何高效完成科研数据的初步分析?深度体验PaperXie AI科研工具中数据分析模块在统计描述、可视化与方法推荐场景下的实际应用表现
大数据·数据库·人工智能·数据分析
武子康2 小时前
大数据-160 Apache Kylin Cube 实战:从建模到构建与查询(含踩坑与优化)
大数据·后端·apache kylin
非著名架构师2 小时前
智慧气象护航:构建陆海空立体交通气象安全保障体系
大数据·人工智能·安全·疾风气象大模型4.0·疾风气象大模型·风光功率预测
pengzhuofan2 小时前
Gateway微服务网关
微服务·架构·gateway
夏洛克信徒3 小时前
从 “工具” 到 “代理”:Gemini 3.0 重构 AI 能力边界,开启智能协作新纪元
大数据·人工智能·神经网络