大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
汤愈韬40 分钟前
ACL概述、ACL原理、基本ACL应用及配置
网络·网络协议·网络安全
极客数模2 小时前
【2026美赛赛题初步翻译F题】2026_ICM_Problem_F
大数据·c语言·python·数学建模·matlab
码刘的极客手记4 小时前
VCAP4-DCA Beta 考试体验分享与 esxcli 自动化实战(第二、三部分)
网络·esxi·vmware·虚拟机
编程彩机5 小时前
互联网大厂Java面试:从分布式架构到大数据场景解析
java·大数据·微服务·spark·kafka·分布式事务·分布式架构
vx-bot5556665 小时前
企业微信接口在多租户SaaS平台中的集成架构与数据隔离实践
大数据·架构·企业微信
朝风工作室5 小时前
开源一款轻量级跨网段 IPC 设备发现与网络配置工具
网络·开源
Qaz555666916 小时前
透明DNS选路实验
网络
haluhalu.7 小时前
Linux网络编程------网络基础
网络·网络协议
坐怀不乱杯魂7 小时前
Linux网络 - HTTP协议
网络·网络协议·http
bubuly7 小时前
软件开发全流程注意事项:从需求到运维的全方位指南
大数据·运维·数据库