大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
蒜蓉大猩猩3 小时前
Node.js - HTTP
javascript·网络·后端·网络协议·http·node.js·php
ac-er88883 小时前
如何优化Go语言开发中的网络传输效率
开发语言·网络·golang
美摄科技4 小时前
美摄科技为企业打造专属PC端视频编辑私有化部署方案
大数据·科技·安全
肾透侧视攻城狮5 小时前
基于华为ENSP的OSPF不规则区域划分深入浅出(5)
网络·网络协议·网络安全·华为·信息与通信·ospf·多进程双向重发布
肾透侧视攻城狮5 小时前
基于华为ENSP的OSPF状态机、工作过程、配置保姆级别详解(2)
网络·网络协议·安全·网络安全·华为·信息与通信·ospf
刘大猫265 小时前
Openldap集成Kerberos
大数据·人工智能·机器学习
云计算DevOps-韩老师7 小时前
【网络云SRE运维开发】2025第2周-每日【2025/01/10】小测-【第10章 ACL理论和实操考试】
网络·智能路由器·运维开发
HehuaTang7 小时前
conntrack iptables 安全组
网络
weixin_307779137 小时前
PySpark得到Apache Spark运行时占用集群资源的比例的方法
大数据·python·spark
网安-轩逸8 小时前
网络安全设备主要有什么
网络·安全·web安全