大数据之hadoop(hdfs部分)

1.引入:为什么需要分布式存储?

一个服务器能存入海量数据吗?显然是不能,所以构建分布式解决了存入问题.多台服务器的协调工作也是性能的横向扩展.

总结:

1.数据量太大,单机存储能力有上限,需要靠数量来解决问题

2.数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1 > 2的效果

2.分布式的调度:

一.去中心化模式: 没有明确的中心点,协调工作 eg:kafka

二.中心化模式: 以一个节点为中心,基于中心点工作 eg:hadoop

3.主从模式(master-slaves):(中心化模式):一台master管理多台slaves工作

4.hdfs:(全称:hadoop distributed file system):也就是Hadoop分布式文件系统,是一个Hadoop的中间组件.主要解决海量数据的存储工作

5.hdfs集群架构(既然是中心化模式,那就有个中心点):

主角色:namenode(管理hdfs整个文件系统,管理database),带着一个secondarynode(辅助)

从角色(slaves):datanode(负责数据存储)

6.搭建集群:

主要的就:配置软连接

workers文件

hadoop-env.sh文件

core-site.xml文件

hdfs-site.xml文件

创建数据目录,修改文件的所属用户与所属用户组

格式化hadoop

也可以看我的专栏https://blog.csdn.net/m0_72898512/article/details/142883816?spm=1001.2014.3001.55017.启动集群

命令: start-dfs.sh

主namenode进程有:

从节点进程:

验证:主机名:9870/

8.代表集群机子数量

点进去就可以看到主机的信息了

配置好了记得快照

9.stop-dfs.sh关闭集群

10.然后关机即可

配置完成

相关推荐
zl_dfq2 分钟前
Linux 之 【进程间通信】(消息队列与信号量、Systrm VIPC在内核中数据结构设计)
linux
AdMergeX9 分钟前
前沿观察 | “死了么”爆火背后:洞察年轻人情绪刚需,重构应用增长新逻辑
大数据·广告saas·流量变现
木卫二号Coding9 分钟前
Docker-构建自己的Web-Linux系统-镜像colinchang/ubuntu-desktop:22.04
linux·ubuntu·docker
维度攻城狮14 分钟前
Ubuntu突然无法中文输入的问题解决办法
linux·运维·ubuntu
Coder个人博客15 分钟前
Linux6.19-ARM64 mm Makefile子模块深入分析
linux·安全·车载系统·系统架构·系统安全·鸿蒙系统·安全架构
猫猫的小茶馆21 分钟前
【Linux 驱动开发】五. 设备树
linux·arm开发·驱动开发·stm32·嵌入式硬件·mcu·硬件工程
岱宗夫up32 分钟前
基于ROS的视觉导航系统实战:黑线循迹+激光笔跟随双模态实现(冰达机器人Nano改造)
linux·python·机器人·ros
雨大王51233 分钟前
国内外工业AI原生企业对比分析与实战案例解读
大数据
开源能源管理系统1 小时前
MyEMS开源能源管理系统:赋能石膏制品制造业绿色低碳转型与降本增效
大数据·开源·能源·能源管理系统·石膏
得赢科技1 小时前
2025年GEO营销应用白皮书 - 服务业区域推广深度剖析
大数据·人工智能