大数据-hadoop

1.hadoop介绍

1.1 起源

1.2 版本

1.3生产环境版本选择

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

Apache版本最原始的版本

Cloudera在大型互联网企业中用的较多

Hortonworks文档较好

1.4架构

hadoop由三个模块组成

分布式存储HDFS

分布式计算MapReduce

资源调度引擎Yarn

分布式文件存储系统HDFS

NameNode主节点主要负责管理集群,保存元数据信息

SecondaryNameNode辅助NameNode做元数据信息备份

DataNode从节点存储数据
资源管理调度系统yarn

ResourceManage主节点主要负责资源调度分配

NodeManager从节点

2.hadoop安装

2.1.关闭防火墙、selinux

bash 复制代码
### 1.关闭防火墙

systemctl stop firewalld
systemctl enable firewalld

###  2.关闭selinux

vi /etc/sysconfig/selinux
SELINUX=disabled

2.2配置hostname

2.3.机器时钟同步

1.通过网络进行时钟同步

安装ntpdate

yum -y install ntpdate

阿里云时钟同步服务器

ntpdate ntp4.aliyun.com

定时同步

crontab -e

*/1 * * * * /usr/sbin/ntpdate ntp4.aliyun.com

相关推荐
Forrit29 分钟前
Agent长期运行(Long-Running Tasks)实现方案与核心挑战
大数据·人工智能·深度学习
lifejump44 分钟前
双冗余链路实现(2/2期)
网络
2601_955363151 小时前
技术赋能B端拓客:号码核验的行业困局与破局路径氪迹科技法人股东筛选系统,阶梯式价格
大数据·人工智能
F1FJJ1 小时前
Shield CLI PostgreSQL 插件现已上架 VS Code 扩展市场
网络·vscode·网络协议·postgresql·开源软件
财经资讯数据_灵砚智能2 小时前
全球财经资讯日报(夜间-次晨)2026年3月28日
大数据·人工智能·python·语言模型·ai编程
@insist1232 小时前
数据库系统工程师-云计算与大数据核心知识
大数据·数据库·云计算·软考·数据库系统工程师·软件水平考试
123过去2 小时前
responder使用教程
linux·网络·测试工具·安全·哈希算法
不知名。。。。。。。。2 小时前
数据链路层
linux·网络
scan7243 小时前
小龙虾模拟人的性格,需要带上历史信息作为上下文
大数据
lpfasd1233 小时前
OpenRouter低延迟使用中国Token算力
网络·token