HDFS中的Trash垃圾桶回收机制

Trash垃圾桶回收机制

文件系统垃圾桶背景

  • 回收站(垃圾桶)是windows操作系统里的一个系统文件夹,主要用来存放用户历史删除的文档文件资料,存放在回收站的文件可以恢复
  • 回收站的功能给了我们一剂"后悔药"。回收站保存了删除的文件,文件夹,图片等。这些项目将一直保留在回收站中,直到清空回收站
  • HDFS本身也是一个文件系统,那么就会涉及到文件数据的删除操作
  • 默认情况下,HDFS中是没有回收站垃圾桶概念的,删除操作的数据将会被直接删除

功能概述

  • HDFS Trash机制,目的防止无意中删除某些东西。默认情况下是不开启的
  • 启用Trash功能之后,从HDFS中删除某些内容时,文件或目录不会立即被清楚,他们将被移动到回收站Current目录中(/user/${username}.Trash/current)
  • .Trash中的文件在用户可配置的时间延迟后被永久删除
  • 也可以简单的讲回收站里的文件移动到.Trash目录之外的位置来恢复回收站中的文件和目录

Trash Checkpoint

  • 检查点仅仅是用户回收站下的一个目录,用于存储在创建检查点之前删除的所有文件或目录
  • 回收站目录在/user/${username}/.Trash/{timestamp_of_checkpoint_creation}
  • 最近删除的文件被移动到回收站Current目录,并且在可配置的时间间隔内,HDFS会为Current回收站目录下的文件创建检查点/user/${username}/.Trash/<日期>,并在过期时删除旧的检查点

Trash功能开启

关闭HDFS集群

  • 在node1节点上,执行一建关闭HDFS集群命令:stop-dfs.sh

修改core-site.xml

  • 在node1节点上修改core-site.xml文件添加下面两个属性
  • fs.trash.interval:回收站中的文件多少分钟后会被系统永久的删除。如果为0,trash功能将被禁用
  • fs.trash.checkpoint.interval:前后两次检查点爱你的创建时间间隔(也是分钟),新的检查点被创建后,随之久的检查点就会被系统永久删除。如果为0,则将该值设置为fs.trash.interval的值

删除文件到trash

  • 开启trash功能后,正常执行删除操作,文件世纪并不会被直接删除,而是被移动到了垃圾回收站

删除文件跳过

  • 在执行删除操作的时候添加一个参数:-skipTrash,不需要经过回收站直接删除

从trash中恢复文件

  • 回收站里面的文件,在到期被自动删除之前,都可以通过命令恢复出来
  • 使用mv,cp命令把数据文件从trash目录下复制移动出来就可以了

清空trash

  • 除了fs.trash.interval参数控制到期自动删除之外,用户还可以通过命令手动清空回收站,释放HDFS磁盘存储空间
  • HDFS提供了一个命令行工具来完成这个工作:Hadoop fs -expunge.该命令立即从文件系统中删除过期检查点
相关推荐
字节跳动数据平台1 小时前
代码量减少 70%、GPU 利用率达 95%:火山引擎多模态数据湖如何释放模思智能的算法生产力
大数据
得物技术2 小时前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
武子康4 小时前
大数据-238 离线数仓 - 广告业务 Hive分析实战:ADS 点击率、购买率与 Top100 排名避坑
大数据·后端·apache hive
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体