教程 | HDFS基本使用方法详解

一、HDFS核心概念

核心设计目标

大文件存储：支持TB/PB级数据存储，默认块大小128MB~256MB
高吞吐量：顺序读写优化，适用于批处理场景
容错机制：三副本策略（默认）自动分布存储

特性	说明
数据块	物理存储基本单位
副本机制	跨机架存放保障可靠性
写一次读多次	数据修改仅支持追加模式

核心组件
NameNode（管理元数据）：

维护文件树结构
记录块映射表
单点故障保障通过HA方案实现

bash 复制代码

检查NameNode状态
hdfs haadmin -getServiceState nn1

DataNode（数据存储）：

定期发送心跳包（默认3秒）
块报告周期为6小时

二、基础操作实践

文件管理命令

bash 复制代码

创建多级目录
hdfs dfs -mkdir -p /user/hadoop/dataset

上传本地文件（本地→HDFS）
hdfs dfs -put localfile.log /user/data/

下载文件（HDFS→本地）
hdfs dfs -get /user/data/results.csv ./local_dir/

查看块分布（添加-block参数）
hdfs fsck /mydata/file.txt -files -blocks -locations

系统监控操作

bash 复制代码

查看存储空间
hdfs dfs -du -h /user/*

生成存储报告（JSON格式）
hdfs dfsadmin -report -format JSON

节点退役操作
hdfs dfsadmin -refreshNodes

三、进阶配置指南

配置文件优化
hdfs-site.xml：

xml 复制代码

<property>
  <name>dfs.replication</name>
  <value>3</value> <!-- 生产环境推荐3副本 -->
</property>
<property>
  <name>dfs.blocksize</name>
  <value>268435456</value> <!-- 设置256MB块大小 -->
</property>

数据平衡处理
执行节点扩容后：

bash 复制代码

hdfs balancer \
  -threshold 10 \     # 磁盘使用率差异阈值
  -policy datanode    # 平衡粒度设置

四、开发接口应用

Java API示例

java 复制代码

Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://namenode:9000");

try (FileSystem fs = FileSystem.get(conf)) {
  // 创建新文件
  FSDataOutputStream out = fs.create(new Path("/test/newfile.txt"));
  out.writeUTF("DeepSeek Data");
  out.close();

  // 开启EC（纠删码）策略
  fs.setErasureCodingPolicy("/ec_data", "RS-6-3-1024k");
}

HTTP REST调用
通过WebHDFS上传：

bash 复制代码

curl -i -X PUT \
"http://namenode:50070/webhdfs/v1/user/file?op=CREATE&overwrite=true" \
-H "Content-Type: application/octet-stream" \
-T localfile.dat

五、关键实践建议

小文件处理方案
- 使用HAR归档文件（hadoop archive命令）
- 合并为SequenceFile格式
- 启用HDFS联邦（Federation）
安全防护配置

bash 复制代码

开启Kerberos认证
hdfs site.xml中设置：
<property>
  <name>dfs.permissions.enabled</name>
  <value>true</value>
</property>

监控指标关注
- NameNode JVM使用率
- 节点磁盘错误率
- 平均块复制系数

通过掌握上述核心操作与配置技巧，用户可充分发挥HDFS的大规模数据存储优势。实际应用应根据集群规模选择纠删码策略（节约存储成本）或多副本模式（提高可靠性），当需要实时数据分析时，建议与Alluxio等缓存系统联动使用。

参考文档推荐：

Hadoop 3.3 官方文档
HDFS POSIX特性实现指南
大规模集群运维最佳实践（中信证券技术白皮书）

六、大数据软件包合集

123盘：https://www.123865.com/s/Mjh6jv-YRAVd?提取码:data