Hadoop安装

草稿

install

https://help.aliyun.com/zh/ecs/user-guide/build-a-hadoop-environment

vim /opt/hadoop/etc/hadoop/core-site.xml

xml 复制代码
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/opt/hadoop/tmp</value>
        <description>location to store temporary files</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

vim /opt/hadoop/etc/hadoop/hdfs-site.xml

xml 复制代码
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/opt/hadoop/tmp/dfs/data</value>
    </property>

如果不手动指定,Hadoop 默认会将临时数据放在 /tmp/hadoop-${user.name} 目录下


创建用户组和用户

shell 复制代码
groupadd test
useradd -m -g test test

# 这种方法允许该用户在本地运行进程,但切断了远程访问(推荐)
echo DenyUsers test >> /etc/ssh/sshd_config
# 设置密码
passwd test
visudo
test  ALL=(ALL)       NOPASSWD:ALL
chown -R test:test /opt/hadoop/

Hadoop 的启动脚本是通过 SSH 登录到各个节点(即便只有 localhost 一个节点)来启动服务的

复制代码
ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  • 环境变量的隔离: 当执行 start-dfs.sh 时,它会启动多个 SSH 会话。这些会话通常是 Non-interactive Shell ,它们不会加载 /etc/profile~/.bashrc
  • Hadoop 的自救机制: hadoop-env.sh 是 Hadoop 运行环境的"宪法"。只要在这里定义了,无论通过什么方式启动,Hadoop 都能准确找到 Java。
shell 复制代码
$  vim /opt/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/java/jdk-11.0.30
export HADOOP_HOME=/opt/hadoop

export HDFS_NAMENODE_OPTS="-Xms256m -Xmx512m"
export HDFS_DATANODE_OPTS="-Xms256m -Xmx512m"
export HDFS_SECONDARYNAMENODE_OPTS="-Xms256m -Xmx512m"

hive 和 Hadoop 的版本保持一致,都使用JDK8,并且都使用非root用户

相关推荐
智能化咨询6 小时前
(101页PPT)SAP凯致半导体数字化升级项目方案(附下载方式)
大数据
gQ85v10Db6 小时前
Redis分布式锁进阶第十八篇:本地缓存+分布式锁双锁架构 + 高并发削峰兜底 + 极致性能无损优化实战
redis·分布式·缓存
小江的记录本7 小时前
【Kafka核心】Kafka高性能的四大核心支柱:零拷贝、批量发送、页缓存、压缩
java·数据库·分布式·后端·缓存·kafka·rabbitmq
计算机毕业编程指导师7 小时前
【计算机毕设推荐】Python+Spark卵巢癌风险数据可视化系统完整实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
hadoop·python·计算机·数据挖掘·spark·毕业设计·卵巢癌
gQ85v10Db7 小时前
Redis分布式锁进阶第十四篇:全系列终局架构复盘 + 锁体系统一规范 + 线上全年零事故收官方案
redis·分布式·架构
极光代码工作室7 小时前
基于大数据的校园消费行为分析系统
大数据·hadoop·python·数据分析·spark
雷工笔记7 小时前
MES 系统设备管理模块详细设计方案
大数据·运维·网络
KmSH8umpK7 小时前
Redis分布式锁进阶第十二篇
数据库·redis·分布式
gQ85v10Db8 小时前
Redis分布式锁进阶第十六篇:番外高阶避坑篇 + 隐性埋点锁故障深挖 + 疑难杂症终极兜底方案
数据库·redis·分布式