Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法

文章目录

安全模式相关命令

shell 复制代码
# 查看安全模式状态
hdfs dfsadmin -safemode get

# 进入安全模式
hdfs dfsadmin -safemode enter

# 离开安全模式
hdfs dfsadmin -safemode leave

# 强制退出安全模式
hdfs dfsadmin -safemode forceExit

# 等待安全模式
hdfs dfsadmin -safemode wait

等待安全模式,通常情况下在脚本中使用,当集群退出安全模式后,立马执行相关操作。

分析集群为什么一直处于安全模式

集群启动后,发现一直处于安全模式中,进入 WEB 界面查看,还有一大段提示,如下:

系统报告称,共有 6288 个数据块,还需要额外的 16 个数据块才能达到总共 6311 个数据块的阈值 0.999

通俗来说就是,当前系统中元数据与记录数据块前后不一致,而 Hadoop 默认要求最大的误差阀值为 0.001,如果超过这个值,就会导致 Hadoop 一直处于安全模式。

也就是说,我们其实已经实际删除了某些数据块,但是记录的元数据因为一些故障导致没有进行同步,就会出现这种情况。

解决方法

首先强制退出安全模式:

shell 复制代码
hdfs dfsadmin -safemode forceExit

接着,我们进入 WEB 管理界面,刷新一下。

此时,我们就会发现那些数据块丢失的文件,将这些文件按照路径在 HDFS 中全部删除即可。

如果你想要对文件进行恢复,那么则需要请教相关专业人士,使用磁盘修复工具进行处理。

删除完成后,我们重启集群,进入 WEB 界面查看是否正常:

如果删除过程中遇到报错,如下所示:

Permission denied: user=master, access=WRITE, inode="/benchmarks/TestDFSIO":root:supergroup:drwxr-xr-x

权限不足,无法进行写操作。

我们需要先使用 root 账号对操作目录授权,或者直接关闭 HDFS 权限验证。

方法一

shell 复制代码
# 使用 `root` 账号对操作目录授权
hdfs dfs -chmod -R 777 /benchmarks/TestDFSIO

方法二

不建议,会影响集群安全。

shell 复制代码
# 直接关闭 HDFS 权限验证,在 hdfs-site.xml 文件中添加如下配置:
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

添加完成后,分发同步该文件,重启集群后生效。

相关推荐
分布式存储与RustFS16 分钟前
Helm在Kubernetes上部署RustFS生产环境指南
分布式·零基础·picgo·对象存储·minio·rustfs
rchmin18 分钟前
Nacos配置中心避坑指南:灵活配置 server-addr 的坑
分布式·nacos·动态配置
永霖光电_UVLED37 分钟前
1.6T 光模块的能效革命
大数据·人工智能·汽车·娱乐
talen_hx29644 分钟前
《零基础入门Spark》学习笔记 Day 17
大数据·笔记·学习·spark
一名优秀的码农1 小时前
vulhub系列-74-Hackable III(超详细)
安全·web安全·网络安全·网络攻击模型·安全威胁分析
hf2000121 小时前
深入分析:Iceberg v3「删除向量(Deletion Vectors, DV)」如何缓解 CDC 场景写放大
大数据·spark·数据湖·湖仓一体·lakehouse
Elastic 中国社区官方博客2 小时前
使用 Remote Write 将 Prometheus 指标发送到 Elasticsearch
大数据·运维·elasticsearch·搜索引擎·全文检索·prometheus
nashane2 小时前
HarmonyOS 6.0 分布式相机实战:调用远端设备摄像头与AI场景识别(API 11+)
分布式·数码相机·harmonyos·harmonyos 5
小t说说2 小时前
2026年PPT生成工具评测及使用体验
大数据·前端·人工智能
IT观测2 小时前
数字化转型浪潮下的西安样本:从“摩高互动”看企业级技术服务的破局之道
大数据·人工智能