HDFS中的Trash垃圾桶回收机制

fiveym2023-08-09 11:32

Trash垃圾桶回收机制

文件系统垃圾桶背景
功能概述
- [Trash Checkpoint](#Trash Checkpoint)
Trash功能开启

文件系统垃圾桶背景

回收站（垃圾桶）是windows操作系统里的一个系统文件夹，主要用来存放用户历史删除的文档文件资料，存放在回收站的文件可以恢复
回收站的功能给了我们一剂"后悔药"。回收站保存了删除的文件，文件夹，图片等。这些项目将一直保留在回收站中，直到清空回收站
HDFS本身也是一个文件系统，那么就会涉及到文件数据的删除操作
默认情况下，HDFS中是没有回收站垃圾桶概念的，删除操作的数据将会被直接删除

功能概述

HDFS Trash机制，目的防止无意中删除某些东西。默认情况下是不开启的
启用Trash功能之后，从HDFS中删除某些内容时，文件或目录不会立即被清楚，他们将被移动到回收站Current目录中（/user/${username}.Trash/current)
.Trash中的文件在用户可配置的时间延迟后被永久删除
也可以简单的讲回收站里的文件移动到.Trash目录之外的位置来恢复回收站中的文件和目录

Trash Checkpoint

检查点仅仅是用户回收站下的一个目录，用于存储在创建检查点之前删除的所有文件或目录
回收站目录在/user/${username}/.Trash/{timestamp_of_checkpoint_creation}
最近删除的文件被移动到回收站Current目录，并且在可配置的时间间隔内，HDFS会为Current回收站目录下的文件创建检查点/user/${username}/.Trash/<日期>,并在过期时删除旧的检查点

Trash功能开启

关闭HDFS集群

在node1节点上，执行一建关闭HDFS集群命令：stop-dfs.sh

修改core-site.xml

在node1节点上修改core-site.xml文件添加下面两个属性
fs.trash.interval:回收站中的文件多少分钟后会被系统永久的删除。如果为0，trash功能将被禁用
fs.trash.checkpoint.interval:前后两次检查点爱你的创建时间间隔（也是分钟），新的检查点被创建后，随之久的检查点就会被系统永久删除。如果为0，则将该值设置为fs.trash.interval的值

删除文件到trash

开启trash功能后，正常执行删除操作，文件世纪并不会被直接删除，而是被移动到了垃圾回收站

删除文件跳过

在执行删除操作的时候添加一个参数：-skipTrash，不需要经过回收站直接删除

从trash中恢复文件

回收站里面的文件，在到期被自动删除之前，都可以通过命令恢复出来
使用mv，cp命令把数据文件从trash目录下复制移动出来就可以了

清空trash

除了fs.trash.interval参数控制到期自动删除之外，用户还可以通过命令手动清空回收站，释放HDFS磁盘存储空间
HDFS提供了一个命令行工具来完成这个工作：Hadoop fs -expunge.该命令立即从文件系统中删除过期检查点

上一篇：kubeadm安装k8s v1.21.5

下一篇：内生安全构建数据存储

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 03幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？072026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？102026 年 AI 大模型 & AI 编程工具实战全总结