【架构七】Hadoop

什么是Hadoop?

Hadoop是一个存储系统+计算框架的软件大数据处理框架。

Hadoop的核心,说白了就是HDFSMapReduce ,HDFS为海量数据提供了存储,而MapReduce为海量数据提供了计算框架。HBase是一个分布式的、面向列的开源数据库。属于Nosql。

Flink和MapReduce都是用于大数据处理的计算框架,两者的区别?

Flink:是一个分布式计算框架,可以处理海量数据,既可以处理海量数据,也可以做实时流处理。

Flink和MapReduce是两种不同的大数据处理框架。

MapReduce适用于离线批处理任务,具有较高的延迟和较差的迭代计算能力。

Flink是一个流处理框架,适用于实时和近实时数据处理,具有较低的延迟、支持迭代计算和有状态处理等特点。

CDH与Hadoop?

CDH是一个强大的商业版数据中心管理工具。CDH是Hadoop众多分支中的一种,是开源且免费的。

(1)提供了各组能够快速稳定运行的数据计算框架,如Spark;【Apache Spark(通常简称为Spark)是一个开源的大数据处理框架,旨在提供高速、易用和通用的数据处理和分析能力。Spark提供了一个统一的编程模型,支持批处理、流处理、机器学习和图计算等多种数据处理任务。】

(2)使用Apache Impala做为对HDFS、Hbase的高性能SQL查询引擎;【是一个开源的分布式SQL查询引擎,用于在大规模数据集上进行交互式分析和查询。它是为了提供快速的查询性能和低延迟而设计的。】

(3)使用Hive数据仓库工具帮助用户分析数据;【hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。】

(4)提供Hbase分布式列式NoSQL数据库。

相关推荐
逸Y 仙X13 分钟前
文章十八:Elasticsearch 多条件组合查询实战运用
大数据·elasticsearch·搜索引擎
灰阳阳15 分钟前
MySQL的基本架构
数据库·mysql·架构
weixin_3077791317 分钟前
云计算大数据Azure服务分类详解
大数据·分类·自动化·云计算·azure
程序员老邢22 分钟前
【产品底稿 11】架构规整收官:从混乱到清晰,工程结构、表命名、模块分层一次性定型
后端·架构·springboot·产品底稿·架构规整·模块分层·数据库规范
jason成都24 分钟前
jetlinks社区版本扩展-TDengine
大数据·时序数据库·tdengine
久菜盒子工作室36 分钟前
中国工业气体行业研究报告(2026)
大数据·人工智能
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年5月1日
大数据·人工智能·python·信息可视化·自然语言处理
大江东去浪淘尽千古风流人物1 小时前
【MASt3R-SLAM】端到端密集SLAM系统:三进程架构与10大核心创新点深度解析
架构
byoass1 小时前
企业云盘高可用架构:主备切换、负载均衡与健康检查实战
运维·网络·安全·架构·云计算·负载均衡
大江东去浪淘尽千古风流人物1 小时前
【cuVSLAM】NVIDIA开源视觉惯性SLAM:GPU全程流水线与创新架构深度梳理
架构·开源