mac上搭建 hadoop 伪集群

1. hadoop介绍

Hadoop是Apache基金会开发的一个开源的分布式计算平台,主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上,以实现高度可扩展性和容错性。它主要由以下几个部分组成:

HDFS (Hadoop Distributed File System):HDFS是Hadoop的分布式文件系统,具有较高的读写速度,很好的容错性和可伸缩性,为海量的数据提供了分布式存储。其冗余数据存储的方式很好地保证了数据的安全性。

MapReduce:MapReduce是一种用于并行处理大数据集的软件框架(编程模型)。用户可在无需了解底层细节的情况下,编写MapReduce程序进行分析和处理分布式文件系统上的数据,MapReduce保证了分析和处理数据的高效性。

YARN (Yet Another Resource Negotiator):YARN是Hadoop2.0以后引入的另一个核心技术,它是一个任务调度和集群资源管理系统。

2. 部署

2.1 下载

官方下载日志如下

https://dlcdn.apache.org/hadoop/common/

这里选择 最新的3.3.6

2.2 解压

检查版本

shell 复制代码
bin/hadoop version
2.3 配置
  • 配置 java home etc/hadoop/hadoop-env.sh
    #注意修改为自己的
    export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
  • 修改 etc/hadoop/core-site.xml:
xml 复制代码
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
  • 修改 etc/hadoop/hdfs-site.xml:
xml 复制代码
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>
  • 检查ssh
    Setup passphraseless ssh
    Now check that you can ssh to the localhost without a passphrase:

    shell 复制代码
    ssh localhost

    If you cannot ssh to localhost without a passphrase, execute the following commands:

    shell 复制代码
    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 0600 ~/.ssh/authorized_keys

    注意已经存在ssh key的话 就不要重写了 不然会影响到 你之前配置的ssh key
    mac上系统配置了 也不行的话 参考 https://blog.csdn.net/a15835774652/article/details/135572420

2.4 开始启动

  • 首先启动 hdfs 首次需要format文件系统 Format the filesystem:
shell 复制代码
bin/hdfs namenode -format
  • Start NameNode daemon and DataNode daemon:
shell 复制代码
sbin/start-dfs.sh

示例图

  • 开启YARN

    You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition.

    The following instructions assume that 1. ~ 4. steps of the above instructions are already executed.

  • Configure parameters as follows:

    etc/hadoop/mapred-site.xml:

xml 复制代码
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

etc/hadoop/yarn-env.sh (注意这个jdk8之后 必须要加 不然yarn启动会报错)

xml 复制代码
export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
export YARN_RESOURCEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"
export YARN_NODEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

etc/hadoop/yarn-site.xml:

xml 复制代码
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>
  • Start ResourceManager daemon and NodeManager daemon:
shell 复制代码
sbin/start-yarn.sh
  • Browse the web interface for the ResourceManager 浏览器查看
    ResourceManager - http://localhost:8088/
  • 使用jps查看启动的应用
  • 另外 在初始化之后 也可以直接启动 sbin/start-all.sh 这个命令会启动 hdfs 和 yarn (生产环境慎用)
  • 关闭 同理 sbin/stop-dfs.sh 停止 hdfs sbin/./stop-yarn.sh 停止yarn 也可以直接 sbin/stop-all.sh 来关闭hdfs和yarn (生产环境慎用)

以上就完成了 hadoop的伪集群搭建

可能会遇到的问题

启动yarn后 在jps中无法看到 resourcemanager

在日志文件中 发现 yarn 启动失败了 Caused by: java.lang.reflect.InaccessibleObjectException: Unable to make protected final java.lang.Class java.lang.ClassLoader.defineClass(java.lang.String,byte[],int,int,java.security.ProtectionDomain) throws java.lang.ClassFormatError accessible: module java.base does not "opens java.lang" to unnamed module @4d7c417d

在yarn-env.sh 添加配置即可

export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7

export YARN_RESOURCEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

export YARN_NODEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

good day !!!

相关推荐
档案宝档案管理1 小时前
制造业档案管理混乱:档案宝如何破解?
大数据·档案·档案管理
weixin_377634841 小时前
【大模型-写作】STORM提升文章深度
大数据·storm
奋斗的蛋黄1 小时前
HDFS与Yarn深入剖析
大数据·运维·hadoop
七牛云行业应用3 小时前
企业级AI大模型选型指南:从评估部署到安全实践
大数据·人工智能·安全
云飞云共享云桌面3 小时前
非标自动化工厂如何10个三维设计共用一台云主机
大数据·运维·服务器·网络·数据库
jiedaodezhuti3 小时前
Flink on YARN 实战问题排查指南(精华版)
大数据·flink
人大博士的交易之路3 小时前
今日行情明日机会——20250912
大数据·数据挖掘·数据分析·缠论·缠中说禅·涨停回马枪·道琼斯结构
core5125 小时前
Hive实战(三)
数据仓库·hive·hadoop
BYSJMG5 小时前
计算机毕设推荐:基于Hadoop+Spark物联网网络安全数据分析系统 物联网威胁分析系统【源码+文档+调试】
大数据·hadoop·python·物联网·spark·django·课程设计
陈天伟教授5 小时前
Hadoop Windows客户端配置与实践指南
大数据·hadoop·windows