大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
会洗碗的CV工程师11 分钟前
828华为云征文|使用Flexus X实例集成ES搜索引擎
大数据·linux·搜索引擎·centos·华为云
pyliumy14 分钟前
ansible 配置
大数据·ansible
知知之之24 分钟前
Flink
大数据·flink
说私域36 分钟前
CTMO时代下的营销新力量:2+1链动模式AI智能名片商城小程序
大数据·人工智能·小程序
limengshi1383921 小时前
通信工程学习:什么是LAN局域网、MAN城域网、WAN广域网
网络·学习·智能路由器·信息与通信
Kika写代码2 小时前
【已解决】【Hadoop】【./bin的使用】bash: ./bin/hdfs: 没有那个文件或目录
hadoop·hdfs·bash
墨家巨子@俏如来2 小时前
五.海量数据实时分析-FlinkCDC+DorisConnector实现数据的全量增量同步
大数据·doris
h177113472052 小时前
相亲交友系统源码中的数据安全策略
大数据·网络·安全·系统架构·vr·交友
袋鼠云数栈2 小时前
袋鼠云数据资产平台:数据模型标准化建表重构升级
大数据
SizeTheMoment3 小时前
网络原理-TCP协议
网络·网络协议·tcp/ip