Hadoop安装

草稿

install

https://help.aliyun.com/zh/ecs/user-guide/build-a-hadoop-environment

vim /opt/hadoop/etc/hadoop/core-site.xml

xml 复制代码
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/hadoop/tmp</value>
        <description>location to store temporary files</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

vim /opt/hadoop/etc/hadoop/hdfs-site.xml

xml 复制代码
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/data</value>
    </property>

如果不手动指定,Hadoop 默认会将临时数据放在 /tmp/hadoop-${user.name} 目录下


创建用户组和用户

shell 复制代码
groupadd test
useradd -m -g test test

# 这种方法允许该用户在本地运行进程,但切断了远程访问(推荐)
echo DenyUsers test >> /etc/ssh/sshd_config
# 设置密码
passwd test
visudo
test  ALL=(ALL)       NOPASSWD:ALL
chown -R test:test /opt/hadoop/

Hadoop 的启动脚本是通过 SSH 登录到各个节点(即便只有 localhost 一个节点)来启动服务的

复制代码
ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  • 环境变量的隔离: 当执行 start-dfs.sh 时,它会启动多个 SSH 会话。这些会话通常是 Non-interactive Shell ,它们不会加载 /etc/profile~/.bashrc
  • Hadoop 的自救机制: hadoop-env.sh 是 Hadoop 运行环境的"宪法"。只要在这里定义了,无论通过什么方式启动,Hadoop 都能准确找到 Java。
shell 复制代码
$  vim /opt/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/java/jdk-11.0.30
export HADOOP_HOME=/opt/hadoop

export HDFS_NAMENODE_OPTS="-Xms256m -Xmx512m"
export HDFS_DATANODE_OPTS="-Xms256m -Xmx512m"
export HDFS_SECONDARYNAMENODE_OPTS="-Xms256m -Xmx512m"

hive 和 Hadoop 的版本保持一致,都使用JDK8,并且都使用非root用户

相关推荐
weixin_549808362 小时前
从“工具辅助”到“智能自主”:易薪路(eRoad) AI 招聘系统的范式革命与实战重构
大数据·人工智能·重构
win x3 小时前
RabbitMQ 七种工作模式
分布式·rabbitmq
豆豆3 小时前
高校网站群集约化建设与运营解决方案
大数据·cms·信创·解决方案·网站管理系统·站群cms·高校站群
YSyuanshuo3 小时前
2026滴鸡精品牌指南:羽本元如何用技术革新挑战传统老牌?
大数据·python
档案宝档案管理3 小时前
2026档案管理系统排名解析,易用性+安全性双维度对比
大数据·数据库·人工智能·档案管理
AllData公司负责人3 小时前
AllData数据中台集成开源项目Apache Doris建设实时数仓平台
java·大数据·数据库·数据仓库·apache doris·实时数仓平台·doris集群
无忧智库4 小时前
港口行业数字化转型:智慧港航信息化管理平台解决方案(PPT)
分布式·微服务·架构
乐迪信息4 小时前
乐迪信息:智慧港口AI防爆摄像机实现船舶流量精准统计
大数据·人工智能·物联网·安全·目标跟踪
isNotNullX4 小时前
数据仓库是什么?怎么搭建数据仓库?
大数据·分布式·spark