Hadoop Windows客户端配置与实践指南

目录

[第1步:准备Hadoop Windows安装包](#第1步:准备Hadoop Windows安装包)

第2步:获取并放置集群配置文件

第3步:配置Windows环境变量

第4步:解决Windows本地依赖问题

第5步:验证配置

[四、 实践操作:使用客户端](#四、 实践操作:使用客户端)

[1. 操作HDFS](#1. 操作HDFS)

[2. 提交MapReduce作业](#2. 提交MapReduce作业)


第1步:准备Hadoop Windows安装包
  1. 从老师提供的地址或上述GitHub仓库下载与你集群版本一致的Hadoop Windows包(例如:hadoop-3.3.0)。

  2. 将其解压到一个没有中文和空格 的目录下,例如:D:\BigData\hadoop-3.3.0。这个目录就是你的 HADOOP_HOME

第2步:获取并放置集群配置文件
  1. 从老师那里获取集群的四个核心配置文件:

    • core-site.xml (包含NameNode地址)

    • hdfs-site.xml (包含HDFS副本数等配置)

    • yarn-site.xml (包含ResourceManager地址)

    • mapred-site.xml (包含MapReduce框架配置)

  2. 用这些文件覆盖 你本地HADOOP_HOME\etc\hadoop\目录下的同名文件。

    • 例如,覆盖 D:\BigData\hadoop-3.3.0\etc\hadoop\ 下的文件。

    为什么? 这样你的客户端才知道NameNode、ResourceManager等关键服务在哪里,才能正确连接到集群。

第3步:配置Windows环境变量
  1. 右键点击"此电脑" -> "属性" -> "高级系统设置" -> "环境变量"。

  2. 在"系统变量"区域,新建一个变量:

    • 变量名(N)HADOOP_HOME

    • 变量值(V)D:\BigData\hadoop-3.3.0 (你的Hadoop解压路径)

  3. 找到并编辑系统变量 中的 Path 变量:

    • 点击"新建",添加一条新的记录:%HADOOP_HOME%\bin

    • 为了确保优先使用,最好将其上移到顶部。

第4步:解决Windows本地依赖问题

Hadoop原生库主要在Linux下工作,在Windows上运行需要一些额外文件(winutils.exehadoop.dll)。

  1. 从上述GitHub仓库下载对应版本的 bin 文件夹(里面包含winutils.exe等文件)。

  2. 将下载的bin文件夹中的内容,全部复制 到你本地的%HADOOP_HOME%\bin目录下,覆盖原有文件。

  3. hadoop.dll 文件复制到 C:\Windows\System32 目录下。

这一步至关重要! 缺少这些文件会在执行命令时出现各种java.lang.UnsatisfiedLinkError错误。

第5步:验证配置
  1. 重新打开一个新的命令提示符(CMD)或PowerShell,使环境变量生效。

  2. 输入以下命令测试环境变量是否配置正确:

    bash

    复制代码
    hadoop version

    如果配置成功,你会看到Hadoop的版本信息输出。


四、 实践操作:使用客户端

配置完成后,你的电脑就成为了一个Hadoop客户端,可以远程操作集群。

1. 操作HDFS
  • 查看HDFS根目录下的文件

    bash

    复制代码
    hadoop fs -ls /
  • 从本地磁盘上传文件到HDFS

    bash

    复制代码
    # 命令格式:hadoop fs -put <本地路径> <HDFS路径>
    hadoop fs -put D:\test.txt /input/
    echo "Hello Hadoop" > test.txt
    hadoop fs -put test.txt /input/
  • 从HDFS下载文件到本地

    bash

    复制代码
    # 命令格式:hadoop fs -get <HDFS路径> <本地路径>
    hadoop fs -get /output/part-r-00000 D:\result.txt
  • 查看HDFS上的文件内容

    bash

    复制代码
    hadoop fs -cat /output/part-r-00000
2. 提交MapReduce作业

假设我们有一个经典的WordCount计算词频的Jar包。

  • 提交作业到YARN集群

    bash

    复制代码
    # 命令格式:
    hadoop jar <jar包路径> <主类名> <输入路径> <输出路径>
    
    # 示例:
    hadoop jar D:\hadoop-examples.jar wordcount /input/test.txt /output/wc_result
  • 查看作业运行状态

    • 你可以通过YARN的Web UI(通常为 http://<resourcemanager-host>:8088)查看作业执行情况。

    • 也可以在命令行使用 yarn 命令查看:

      bash

      复制代码
      yarn application -list
相关推荐
JH307312 小时前
10分钟理解泛型的通配符(extends, super, ?)
java·开发语言·windows
非凡ghost12 小时前
MousePlus(鼠标增强工具) 中文绿色版
前端·windows·计算机外设·软件需求
AI优秘企业大脑13 小时前
更新维护:定期更新、功能修复、性能优化的全面指南
大数据·人工智能
学习中的阿陈13 小时前
MapReduce运行实例
大数据·mapreduce
北邮-吴怀玉13 小时前
6.1.2.1 大数据方法论与实践指南-离线任务分类
大数据·数据治理
白鲸开源15 小时前
小白指南:Apache DolphinScheduler 补数据功能实操演示
大数据·数据分析·开源
Autism11415 小时前
javase-day22-stream
java·开发语言·windows·笔记
北邮-吴怀玉16 小时前
5.1.5 大数据方法论与实践指南-数据仓库存储格式选择
大数据·数据仓库
派可数据BI可视化16 小时前
数字化转型迫在眉睫,企业应该如何面对?
大数据·数据仓库·信息可视化·数据挖掘·数据分析
电商API_1800790524716 小时前
微店常用API:获取商品详情接口|关键字搜索商品接口|获取快递费接口-打通商品运营与用户体验的技术桥梁
大数据·服务器·人工智能·爬虫·数据挖掘