大数据平台基础(Hadoop大数据原理与应用)

第1章 大数据概述

1、大数据内涵

大规模数据的集合体

捕捉、管理和处理数据的技术

2、大数据特征(4V特征)

Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低

3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop

1、Hadoop概述

Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构

Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理

Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN

2、Hadoop生态系统

①Common:提供基础工具

②HDFS:Hadoop Distributed File System,分布式文件系统

③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架

④MapReduce:计算框架

⑤HBase:开源数据库

⑥ZooKeeper:应用程序协调框架

⑦Hive:数据库工具,提供SQL接口

⑧Flume:日志采集、聚合、传输的框架

⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换

⑩Kafka:发布订阅消息系统

3、Hadoop体系结构

Hadoop集群采用主从架构

NameNode、ResourceManager为主,DataNode、NodeManager为从

NameNode、DataNode负责完成HDFS的工作

ResourceManager、NodeManager负责完成YARN的工作

4、Hadoop运行模式

单机模式、伪分布模式、全分布模式

相关推荐
武子康几秒前
大数据-210 如何在Scikit-Learn中实现逻辑回归及正则化详解(L1与L2)
大数据·后端·机器学习
xiaobaishuoAI4 分钟前
全链路性能优化实战指南:从瓶颈定位到极致优化
大数据·人工智能·科技·百度·geo
乾元8 分钟前
如何把 CCIE / HCIE 的实验案例改造成 AI 驱动的工程项目——从“实验室能力”到“可交付系统”的完整迁移路径
大数据·运维·网络·人工智能·深度学习·安全·机器学习
xiaobaishuoAI16 分钟前
后端工程化实战指南:从规范到自动化,打造高效协作体系
java·大数据·运维·人工智能·maven·devops·geo
俊哥大数据24 分钟前
【实战项目5】基于Flink新闻热搜大数据实时分析项目
大数据·flink
俊哥大数据28 分钟前
【实战项目3】基于Flink广告投放业务领域大数据实时分析项目
大数据·flink
学好statistics和DS42 分钟前
Git 同步冲突
大数据·git·elasticsearch
俊哥大数据1 小时前
【项目6】基于Hadoop+Hive+Springboot+vue新闻资讯大数据仓库项目
数据仓库·hive·hadoop
俊哥大数据1 小时前
【实战项目4】Hadoop金融信贷大数据离线分析项目
大数据·hadoop·金融
samLi06201 小时前
【工具变量】上市公司是否为高科技行业DID数据-含参考文献及代码(1990-2024年)
大数据