Hadoop Windows客户端配置与实践指南

目录

[第1步:准备Hadoop Windows安装包](#第1步:准备Hadoop Windows安装包)

第2步:获取并放置集群配置文件

第3步:配置Windows环境变量

第4步:解决Windows本地依赖问题

第5步:验证配置

[四、 实践操作:使用客户端](#四、 实践操作:使用客户端)

[1. 操作HDFS](#1. 操作HDFS)

[2. 提交MapReduce作业](#2. 提交MapReduce作业)


第1步:准备Hadoop Windows安装包
  1. 从老师提供的地址或上述GitHub仓库下载与你集群版本一致的Hadoop Windows包(例如:hadoop-3.3.0)。

  2. 将其解压到一个没有中文和空格 的目录下,例如:D:\BigData\hadoop-3.3.0。这个目录就是你的 HADOOP_HOME

第2步:获取并放置集群配置文件
  1. 从老师那里获取集群的四个核心配置文件:

    • core-site.xml (包含NameNode地址)

    • hdfs-site.xml (包含HDFS副本数等配置)

    • yarn-site.xml (包含ResourceManager地址)

    • mapred-site.xml (包含MapReduce框架配置)

  2. 用这些文件覆盖 你本地HADOOP_HOME\etc\hadoop\目录下的同名文件。

    • 例如,覆盖 D:\BigData\hadoop-3.3.0\etc\hadoop\ 下的文件。

    为什么? 这样你的客户端才知道NameNode、ResourceManager等关键服务在哪里,才能正确连接到集群。

第3步:配置Windows环境变量
  1. 右键点击"此电脑" -> "属性" -> "高级系统设置" -> "环境变量"。

  2. 在"系统变量"区域,新建一个变量:

    • 变量名(N)HADOOP_HOME

    • 变量值(V)D:\BigData\hadoop-3.3.0 (你的Hadoop解压路径)

  3. 找到并编辑系统变量 中的 Path 变量:

    • 点击"新建",添加一条新的记录:%HADOOP_HOME%\bin

    • 为了确保优先使用,最好将其上移到顶部。

第4步:解决Windows本地依赖问题

Hadoop原生库主要在Linux下工作,在Windows上运行需要一些额外文件(winutils.exehadoop.dll)。

  1. 从上述GitHub仓库下载对应版本的 bin 文件夹(里面包含winutils.exe等文件)。

  2. 将下载的bin文件夹中的内容,全部复制 到你本地的%HADOOP_HOME%\bin目录下,覆盖原有文件。

  3. hadoop.dll 文件复制到 C:\Windows\System32 目录下。

这一步至关重要! 缺少这些文件会在执行命令时出现各种java.lang.UnsatisfiedLinkError错误。

第5步:验证配置
  1. 重新打开一个新的命令提示符(CMD)或PowerShell,使环境变量生效。

  2. 输入以下命令测试环境变量是否配置正确:

    bash

    复制代码
    hadoop version

    如果配置成功,你会看到Hadoop的版本信息输出。


四、 实践操作:使用客户端

配置完成后,你的电脑就成为了一个Hadoop客户端,可以远程操作集群。

1. 操作HDFS
  • 查看HDFS根目录下的文件

    bash

    复制代码
    hadoop fs -ls /
  • 从本地磁盘上传文件到HDFS

    bash

    复制代码
    # 命令格式:hadoop fs -put <本地路径> <HDFS路径>
    hadoop fs -put D:\test.txt /input/
    echo "Hello Hadoop" > test.txt
    hadoop fs -put test.txt /input/
  • 从HDFS下载文件到本地

    bash

    复制代码
    # 命令格式:hadoop fs -get <HDFS路径> <本地路径>
    hadoop fs -get /output/part-r-00000 D:\result.txt
  • 查看HDFS上的文件内容

    bash

    复制代码
    hadoop fs -cat /output/part-r-00000
2. 提交MapReduce作业

假设我们有一个经典的WordCount计算词频的Jar包。

  • 提交作业到YARN集群

    bash

    复制代码
    # 命令格式:
    hadoop jar <jar包路径> <主类名> <输入路径> <输出路径>
    
    # 示例:
    hadoop jar D:\hadoop-examples.jar wordcount /input/test.txt /output/wc_result
  • 查看作业运行状态

    • 你可以通过YARN的Web UI(通常为 http://<resourcemanager-host>:8088)查看作业执行情况。

    • 也可以在命令行使用 yarn 命令查看:

      bash

      复制代码
      yarn application -list
相关推荐
小邓睡不饱耶28 分钟前
使用Scala实现手机号码归属地查询系统
开发语言·windows·scala
BYSJMG28 分钟前
计算机毕设选题推荐:基于大数据的癌症数据分析与可视化系统
大数据·vue.js·python·数据挖掘·数据分析·课程设计
petrel20151 小时前
【Spark 核心内参】2026.1:JIRA vs GitHub Issues 治理模式大讨论与 4.2.0 预览版首发
大数据·spark
闻哥1 小时前
深入理解 ES 词库与 Lucene 倒排索引底层实现
java·大数据·jvm·elasticsearch·面试·springboot·lucene
0白露1 小时前
关闭搜狗输入法右下角广告,可以适用于大多数应用系统通知的广告
windows·bug
TracyCoder1231 小时前
全面解析:Elasticsearch 性能优化指南
大数据·elasticsearch·性能优化
bigdata-rookie1 小时前
Starrocks 简介
大数据·数据库·数据仓库
petrel20151 小时前
【Spark 核心内参】2025.9:预览版常态化与数据类型的重构
大数据·spark
行业探路者1 小时前
2026年热销榜单:富媒体展示二维码推荐,助力信息传递新风尚
大数据·音视频·二维码
CTO Plus技术服务中1 小时前
大数据、开发环境、中间件、数据库运维开发教程
大数据·数据库·中间件