大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
长谷深风1111 分钟前
HTTP请求全过程解析【个人八股】
网络·网络协议·http·多线程下载·tcp 连接·请求报文、响应报文·网络请求流程
xhbh6662 分钟前
MC端口映射完全教程:路由器虚拟服务器配置+防火墙放行+内网穿透备用方案
运维·服务器·网络·网络协议·tcp/ip·智能路由器·流量端口转发
code monkey.3 分钟前
【Linux之旅】Linux 网络基础全解析:从协议分层到 Socket 编程,构建高性能网络服务的底层基石
linux·网络·php
涤生大数据6 分钟前
Doris/StarRocks 高频面试题通关指南
大数据·starrocks·数仓·数据科学·大数据开发·diris
艾莉丝努力练剑7 分钟前
【Linux网络】Linux 网络编程:HTTP(四)从手写服务器到生产级 Nginx 与 cpp-httplib 实战
linux·运维·服务器·网络·c++·nginx·http
Ether IC Verifier10 分钟前
TCP拥塞控制详解
网络·网络协议·tcp/ip·计算机网络·dpu
切糕师学AI10 分钟前
计算机网络层次结构详解:从OSI七层模型到TCP/IP四层模型
网络·tcp/ip·计算机网络
咖喱o13 分钟前
IPv6
服务器·前端·网络
IpdataCloud14 分钟前
IP查询工具怎么选?在线API vs IP离线库:精度、速度、成本、隐私全对比
服务器·网络·数据库
随身数智备忘录15 分钟前
拆解安全生产法三大核心功能,安全生产法如何解决责任不清与事故追责难
大数据·人工智能·安全