HDFS Java API 基本操作实验

Apache Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的一部分,用于存储大数据集。HDFS 提供了一个 Java API,允许开发者在 Java 应用程序中执行 HDFS 的基本操作,如创建目录、上传文件、读取文件、删除文件等。

以下是一个简单的 HDFS Java API 基本操作实验,展示了如何使用 Java API 与 HDFS 交互:

1. 准备工作

确保你已经安装了 Hadoop,并且 HDFS 服务正在运行。你还需要一个 Java 开发环境,并添加了 Hadoop 的相关 JAR 包到你的项目依赖中。

2. 编写 Java 代码

java 复制代码
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;

public class HdfsBasicOperations {

    public static void main(String[] args) throws IOException {
        // 1. 配置 Hadoop 环境
        Configuration conf = new Configuration();
        // 如果你的 Hadoop 集群不是本地运行,需要设置 fs.defaultFS
        // conf.set("fs.defaultFS", "hdfs://<your-namenode-host>:<port>");

        // 2. 获取 FileSystem 实例
        FileSystem fs = FileSystem.get(URI.create("hdfs://localhost:9000"), conf);

        // 3. 创建一个目录
        Path dirPath = new Path("/user/hadoop/testdir");
        if (!fs.exists(dirPath)) {
            fs.mkdirs(dirPath);
            System.out.println("Directory created: " + dirPath);
        }

        // 4. 上传一个文件到 HDFS
        Path filePath = new Path("/user/hadoop/testdir/testfile.txt");
        BufferedInputStream in = null;
        FSDataOutputStream out = null;
        try {
            in = new BufferedInputStream(new FileInputStream("localfile.txt"));
            out = fs.create(filePath);
            IOUtils.copyBytes(in, out, 4096, true);
            System.out.println("File uploaded to HDFS: " + filePath);
        } finally {
            IOUtils.closeStream(in);
            IOUtils.closeStream(out);
        }

        // 5. 读取 HDFS 上的文件内容
        in = null;
        BufferedOutputStream bos = null;
        try {
            in = new BufferedInputStream(fs.open(filePath));
            bos = new BufferedOutputStream(new FileOutputStream("downloadedfile.txt"));
            IOUtils.copyBytes(in, bos, 4096, true);
            System.out.println("File downloaded from HDFS: " + filePath);
        } finally {
            IOUtils.closeStream(in);
            IOUtils.closeStream(bos);
        }

        // 6. 删除 HDFS 上的文件
        if (fs.exists(filePath)) {
            fs.delete(filePath, true);
            System.out.println("File deleted from HDFS: " + filePath);
        }

        // 7. 关闭 FileSystem
        fs.close();
    }
}

3. 编译和运行

使用 javac 编译 Java 代码,并使用 java 命令运行它。确保 Hadoop 的相关 JAR 包在类路径中可用。

4. 注意事项

  • 在运行代码之前,确保 HDFS 服务正在运行,并且你的 Java 程序有足够的权限来执行这些操作。
  • 根据你的 Hadoop 集群配置,可能需要修改 fs.defaultFS 的值。
  • 在这个示例中,我们使用 localfile.txt 作为本地文件,它应该存在于你的本地文件系统中。
  • 我们将文件下载到本地系统的 downloadedfile.txt 文件中。你可以根据需要更改这些文件名和路径。
  • 在处理完 HDFS 操作后,确保关闭 FileSystem 实例以释放资源。
相关推荐
开开心心就好几秒前
系统管理工具,多功能隐私清理文件粉碎工具
java·网络·windows·r语言·电脑·excel·symfony
随丶芯6 分钟前
IDEA安装leetcode-editor插件
java·开发语言
范什么特西11 分钟前
下载idea旧版本
java·ide·intellij-idea
计算机毕设指导618 分钟前
基于微信小程序的钓鱼论坛系统【源码文末联系】
java·spring boot·mysql·微信小程序·小程序·tomcat·maven
qq_124987075319 分钟前
基于微信小程序的宠物交易平台的设计与实现(源码+论文+部署+安装)
java·spring boot·后端·微信小程序·小程序·毕业设计·计算机毕业设计
小毅&Nora19 分钟前
【Java线程安全实战】⑧ 阶段同步的艺术:Phaser 与 Condition 的高阶玩法
java·多线程
内存不泄露20 分钟前
基于Spring Boot和Vue的企业办公自动化系统设计与实现
java·vue.js·spring boot·intellij-idea
禹曦a21 分钟前
Java实战:Spring Boot 构建电商订单管理系统RESTful API
java·开发语言·spring boot·后端·restful
code_lfh22 分钟前
Spring Boot测试类的使用参考
java·spring boot·junit
芒克芒克22 分钟前
虚拟机类加载机制
java·开发语言·jvm