学习大数据DAY37 hadoop 的安装和配置

目录

[hadoop 大数据平台](#hadoop 大数据平台)

[Hadoop 的分布式存储主要基于 HDFS(分布式文件系统):](#Hadoop 的分布式存储主要基于 HDFS(分布式文件系统):)

[Hadoop 的分布式核心组件是 MapReduce 编程模型:](#Hadoop 的分布式核心组件是 MapReduce 编程模型:)

[Hadoop 大数据平台采用组件方式搭建。](#Hadoop 大数据平台采用组件方式搭建。)

[Hadoop 组件](#Hadoop 组件)

[HDFS 组件用于存储数据,主要由 NameNode,DataNode,SecondaryNameNode](#HDFS 组件用于存储数据,主要由 NameNode,DataNode,SecondaryNameNode)

组成

[Yarn 资源调度负责硬件资源管理,主要由:ResourceManager,NodeManager,ApplicationMaster 组成](#Yarn 资源调度负责硬件资源管理,主要由:ResourceManager,NodeManager,ApplicationMaster 组成)

[平台搭建-ssh 免密](#平台搭建-ssh 免密)

[Hadoop 平台搭建-软件安装](#Hadoop 平台搭建-软件安装)

上机练习


hadoop 大数据平台

1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构
2)主要解决,海量数据的存储和海量数据的分析计算问题
3)广义上来说,Hadoop 通常是指一个更广泛的概念-Hadoop 生态圈

Hadoop 的分布式存储主要基于 HDFS(分布式文件系统):

HDFS 将数据分割成多个数据块(block),这些数据块分散存储在集群中的不
同节点上。每个数据块会有多个副本,通常默认是 3 个副本.采用分布式存储在
不同的节点上,提高了数据的可靠性和容错性。

Hadoop 的分布式核心组件是 MapReduce 编程模型:

在 MapReduce 任务中,数据被切分为多个任务,每个任务由或多个节点并行。
每个节点负责将输入数据映射为键-值对生成中间结果。最后,中间结果按照键
的排序进行合并和归并

Hadoop 大数据平台采用组件方式搭建。

1.灵活性:根据不同业务场景选用不同的功能组件,以满足多样化需求.
2.扩展性:方便添加新的组件,以适应技术发展和业务增长
3.优化资源:针对不同组件进行资源的优化配置,提高资源利用效率 4.分工明确:各个组件专注特定功能领域,使开发和维护更加高效.

Hadoop 组件

HDFS 组件用于存储数据,主要由 NameNode,DataNode,SecondaryNameNode

组成

NameNode (nn): 存储文件的元数据,如文件名,文件目录结构,文件属性 (生
成时间、副本数、文件权限),以及每个文件的块列表和块所在的 DataNode 等.
DataNode(dn): 在本地文件系统存储文件块数据,以及块数据的校验
SecondaryNameNode(2nn): 每隔一段时间对 NameNode 元数据进行备份

Yarn**,要****由:ResourceManager,NodeManager,ApplicationMaster 组成**

ResourceManager (资源管理器):YARN 集群中的中心调度器和资源管理器。
负责整个集群的资源分配和调度 监控集群中的计算资源任务的运行状态
NodeManager (节点管理器):每个计算节点上运行的代理程序负责管理和监 控节点上的资源和任务。接收来自 RM 的任务调度请求;启动、停止和监控任务的
执行;发送节点的状态和可用资源报告
ApplicationMaster(应用程序管理器):每个应用程序在 YARN 中都有一个对
应的 AM.AppMaster 负责协调和管理应用程序的执行。它与 RM 交互申请资源并监
任务的执行。它还负责任务的划分和调度、容错和恢复、进度跟踪等。

hadoop 大数据平台-部署策略

hadoop 大数据平台-部署步骤 Hadoop

平台搭建-ssh 免密

Hadoop 平台搭建-软件安装

#1.jdk 安装
#2.软件环境搭建
#3.软件配置文件设置
cd $HADOOP_HOME/etc/hadoop/
#3.1. core-site.xml 文件配置
#3.2. hdfs-site.xml 文件配置
#3.3. yarn-site.xml 文件配置
#3.4. mapred-site.xml 文件配置
#3.5. worker 文件配置
#4.启停脚本
#5.同步脚本
通过网盘分享的文件:hadoop配置
链接: https://pan.baidu.com/s/11Wn071rIgcsBhjC1vqMDUQ 提取码: i325

上机练习

查看启停脚本的状态

查看部署成功后的网页 192.168.200.100:19888

查看部署成功后的 192.168.200.100:9870

相关推荐
im_AMBER18 分钟前
Leetcode 78 识别数组中的最大异常值 | 镜像对之间最小绝对距离
笔记·学习·算法·leetcode
其美杰布-富贵-李1 小时前
HDF5文件学习笔记
数据结构·笔记·学习
老蒋新思维1 小时前
创客匠人视角:智能体重构创始人 IP,知识变现从 “内容售卖” 到 “能力复制” 的革命
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
笨蛋少年派2 小时前
Flume数据采集工具简介
大数据
梦里不知身是客112 小时前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
d111111111d2 小时前
在STM32函数指针是什么,怎么使用还有典型应用场景。
笔记·stm32·单片机·嵌入式硬件·学习·算法
小C8063 小时前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据
嗷嗷哦润橘_3 小时前
AI Agent学习:MetaGPT之我的工作
人工智能·学习·flask
知识分享小能手4 小时前
CentOS Stream 9入门学习教程,从入门到精通,Linux日志分析工具及应用 —语法详解与实战案例(17)
linux·学习·centos