大数据之hadoop(hdfs部分)

1.引入:为什么需要分布式存储?

一个服务器能存入海量数据吗?显然是不能,所以构建分布式解决了存入问题.多台服务器的协调工作也是性能的横向扩展.

总结:

1.数据量太大,单机存储能力有上限,需要靠数量来解决问题

2.数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1 > 2的效果

2.分布式的调度:

一.去中心化模式: 没有明确的中心点,协调工作 eg:kafka

二.中心化模式: 以一个节点为中心,基于中心点工作 eg:hadoop

3.主从模式(master-slaves):(中心化模式):一台master管理多台slaves工作

4.hdfs:(全称:hadoop distributed file system):也就是Hadoop分布式文件系统,是一个Hadoop的中间组件.主要解决海量数据的存储工作

5.hdfs集群架构(既然是中心化模式,那就有个中心点):

主角色:namenode(管理hdfs整个文件系统,管理database),带着一个secondarynode(辅助)

从角色(slaves):datanode(负责数据存储)

6.搭建集群:

主要的就:配置软连接

workers文件

hadoop-env.sh文件

core-site.xml文件

hdfs-site.xml文件

创建数据目录,修改文件的所属用户与所属用户组

格式化hadoop

也可以看我的专栏https://blog.csdn.net/m0_72898512/article/details/142883816?spm=1001.2014.3001.55017.启动集群

命令: start-dfs.sh

主namenode进程有:

从节点进程:

验证:主机名:9870/

8.代表集群机子数量

点进去就可以看到主机的信息了

配置好了记得快照

9.stop-dfs.sh关闭集群

10.然后关机即可

配置完成

相关推荐
Wmenghu25 分钟前
Ubuntu手动安装jdk;Ubuntu手动安装Maven;Ubuntu手动安装RocketMQ;Ubuntu手动安装RocketMQ-Dashbo
java·linux·ubuntu
SPC的存折1 小时前
10、Docker容器故障排查
linux·运维·数据库·docker·容器
liuyunshengsir1 小时前
linux 下新增用户后无法使用TAB补全功能的最佳解决方法
linux·运维·服务器
书生执笔画浮沉1 小时前
rpmrebuild
linux·centos·rpm
xuefeiniao2 小时前
使用宝塔安装RabbitMQ,启动不起来
分布式·rabbitmq·ruby
xiaoduo AI2 小时前
客服机器人可按紧急程度排序会话?Agent 开放平台通过关键词设置优先级实现急救咨询优先处理?
大数据·机器人
乌托邦的逃亡者3 小时前
Dockerfile的配置和使用
linux·运维·docker·容器
小此方3 小时前
Re:Linux系统篇(三)指令篇 · 二:十二个高频指令精讲+重定向操作+“一切皆文件“深入理解
linux·运维·服务器
十五年专注C++开发3 小时前
MobaXterm:Windows 远程工作全能工具箱
linux·windows·mobaxterm
wohehe3 小时前
Android项目工程化-Github Actions
linux·github