Hadoop优化

1.Datanode管理多块数据盘

1.理解

其实就是扩展Datanode空间,之前一个盘,现在加一个盘或者多个盘,

2.优点:

  • 1.提高容错(避免硬盘损坏全部数据丢失)
  • 2.实现数据分离模式存储(框架本体与数据分离,集群出现问题数据可进行单独恢复,这样也是提高容错)

3.配置(临时挂载,晚点查永久挂载)

1.磁盘配置

  1. lsblk 查看磁盘数据
  2. sudo fdisk /dev/sdb 建立分区
  3. sudo mkfs.ext4 /dev/sdb1 格式化
  4. 挂载
  • sudo mkdir -p /data/disk1
  • sudo mount /dev/sdb1 /data/disk1
  • lsblk

    类似这样就是挂载成功
  1. sudo chown -R atguigu:atguigu /data/disk1 修改权限

2. 将磁盘路径写入配置文件

注意,这个是不能分发的,独属于这个datanode的

dfs.datanode.data.dir

file://${hadoop.tmp.dir}/dfs/data,file:///data/disk1



4.磁盘的数据均衡(根据空间百分比进行分配)

1.生成均衡计划

c 复制代码
$ hdfs diskbalancer -plan hadoop102 --thresholdPercentage 1 --v

磁盘的数据均衡

这些的思路都是重点

HDFS---集群扩容及缩容

数据的分治管理

加个服务器然后配成DN

修改主机名 用户名

安装HADOOP

为什么会死?

为什么DN里面能显示

datanode上的version中有datanodeuuid

新扩容的删掉DataNode

为什么不用在workers注册就识别是DN

缩容

数据迁移 NN自己迁移

白名单: 表示在白名单的主机IP地址可以,用来存储数据。

黑名单

当服务器要退休时,在黑名单中添加,但是,不能删除白名单,因为要完成数据迁移,如果删除了,数据就丢失了.

每个数据块来一个副本,满足最低保证,就能退出安全模式了

其实安全模式就是为了避免数据混乱.

可以手动打开安全模式

等待安全模式,只要有一个DN离开,就关

什么时候需要主动进入安全模式?

出现问题,维护

等待什么时候用?

定时上传,或者维护结束

脚本执行

直接在wait第二行直接写代码就行

为什么hadoop.tmp.dir是这么写的?

压缩

原则: 运算密集少用压缩,IO密集多用压缩

只要有IO操作的地方都可以使用压缩

数据量小于块大小,不用切

为什么mapper为什么不考虑压缩率,因为他不需要永久落盘

相关推荐
阿瑞说项目管理17 分钟前
AI Agent 与普通 AI 助手的区别是什么?
大数据·人工智能·agent·智能体·企业级ai
黎阳之光20 分钟前
黎阳之光:以视频孪生+全域感知,助力低空经济破局突围
大数据·人工智能·算法·安全·数字孪生
汽车仪器仪表相关领域32 分钟前
Kvaser Leaf Light HS v2 M12:5 针 M12 NMEA 2000 接口,海事与工业 CAN 总线测试的防水耐用之选
大数据·网络·人工智能·功能测试·安全性测试
ElfBoard1 小时前
飞凌精灵(ElfBoard)技术贴|如何在RK3506开发板上实现UART功能复用
大数据·linux·人工智能·驱动开发·单片机·嵌入式硬件·物联网
QYR_Jodie1 小时前
2026-2032期间,全球陶瓷餐具和玻璃器皿市场年复合增长率(CAGR)为2.9%
大数据·人工智能
派拉软件2 小时前
从 IAM 到 AAM,重构 AI Agent 时代的访问控制体系
大数据·人工智能·网络安全·重构·iam·身份与访问控制·aam
wei_shuo2 小时前
办公小浣熊Office Raccoon 2.0智能助手:帮助我真正实现数据处理工作中的降本、增效、提质
大数据·ai·数据处理
treesforest3 小时前
Ipdatacloud IP 地址查询方案适合哪些场景?
大数据·网络·数据库·网络协议·tcp/ip·ip
It's Q3 小时前
hive学习分区&&函数
hive·hadoop·学习
代码漫谈3 小时前
RabbitMQ 解析:核心价值、环境搭建与应用
分布式·消息队列·rabbitmq