大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
.Shu.5 小时前
计算机网络 TLS握手中三个随机数详解
网络·计算机网络·安全
西猫雷婶7 小时前
STAR-CCM+|K-epsilon湍流模型溯源
大数据·云计算
2501_924889558 小时前
商超高峰客流统计误差↓75%!陌讯多模态融合算法在智慧零售的实战解析
大数据·人工智能·算法·计算机视觉·零售
曼岛_9 小时前
[系统架构设计师]大数据架构设计理论与实践(十九)
大数据·系统架构·系统架构设计师
计算机编程小咖10 小时前
《基于大数据的农产品交易数据分析与可视化系统》选题不当,毕业答辩可能直接挂科
java·大数据·hadoop·python·数据挖掘·数据分析·spark
.Shu.10 小时前
git实战(7)git常用命令速查表
大数据·git
软件开发明哥11 小时前
BigData大数据应用开发学习笔记(03)离线处理--数据仓库Hive
大数据
haidizym11 小时前
质谱数据分析环节体系整理
大数据·人工智能·数据分析·ai4s
2501_9248905212 小时前
商超场景徘徊识别误报率↓79%!陌讯多模态时序融合算法落地优化
java·大数据·人工智能·深度学习·算法·目标检测·计算机视觉
于冬恋13 小时前
RabbitMQ高级
服务器·网络·rabbitmq