【快捷部署】021_Hadoop(3.3.2)

📣【快捷部署系列】021期信息

编号 选型 版本 操作系统 部署形式 部署模式 复检时间
021 Hadoop 3.3.2 Ubuntu 20.04 tar包 单机 2024-04-17

一、快捷部署

shell 复制代码
#!/bin/bash
#################################################################################
# 作者:cxy@toc 2024-04-17                                                  
# 功能:快捷部署 Hadoop
# 说明:                                                                 
#################################################################################


info(){
  echo -e "\033[34m 【`date '+%Y-%m-%d %H:%M:%S'`】\033[0m" "\033[35m$1\033[0m "
}


proj_base_name=cxy

# 安装JDK
install_jdk(){
mkdir -p /${proj_base_name}/bao 
mkdir -p /${proj_base_name}/jdk
cd /${proj_base_name}/bao
wget https://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz
 
tar xf /${proj_base_name}/bao/jdk-8u151-linux-x64.tar.gz -C /${proj_base_name}/jdk
cat >> /etc/profile <<EOF
export JAVA_HOME=/${proj_base_name}/jdk/jdk1.8.0_151
export JRE_HOME=\${JAVA_HOME}/jre
export CLASSPATH=.:\${JAVA_HOME}/lib:\${JRE_HOME}/lib
export PATH=.:\${JAVA_HOME}/bin:\$PATH
EOF

source /etc/profile
info "JDK部署完毕 ..."
}


#自定义配置文件
diy_custom_config(){

cd /${proj_base_name}/hadoop/hadoop-3.3.2

#备份要改动的文件
cp etc/hadoop/hadoop-env.sh etc/hadoop/hadoop-env.sh.bak
cp etc/hadoop/core-site.xml etc/hadoop/core-site.xml.bak
cp etc/hadoop/hdfs-site.xml etc/hadoop/hdfs-site.xml.bak
 
#修改 hadoop-env.sh
sed -i '42aexport JAVA_HOME='/${proj_base_name}/jdk'/jdk1.8.0_151' etc/hadoop/hadoop-env.sh

#修改 core-site.xml
rm -f etc/hadoop/core-site.xml
touch etc/hadoop/core-site.xml
cat >> etc/hadoop/core-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
   		<name>fs.defaultFS</name>
   		<value>hdfs://localhost:9000</value>
 	</property>
 	<!-- 数据存储目录 -->
  	<property>
   		<name>hadoop.tmp.dir</name>
   		<value>/${proj_base_name}/hadoop/data/tmp</value>
 	</property>
 	<property>
   		<name>hadoop.http.staticuser.user</name>
   		<value>root</value>
 	</property>
</configuration>
EOF

#修改 hdfs-site.xml
rm -f etc/hadoop/hdfs-site.xml
touch etc/hadoop/hdfs-site.xml
cat >> etc/hadoop/hdfs-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:/${proj_base_name}/hadoop/data/hdfs/name</value>
	</property>
	<property>
	    <name>dfs.datanode.data.dir</name>
	    <value>file:/${proj_base_name}/hadoop/data/hdfs/data</value>
	</property>
	<property>
	     <name>dfs.replication</name>
	     <value>1</value>
	</property>
</configuration>
EOF

}


# 部署Hadoop(Standalone)
install_Hadoop(){

mkdir /${proj_base_name}/hadoop
cd /${proj_base_name}/bao
wget https://repo.huaweicloud.com/apache/hadoop/common/hadoop-3.3.2/hadoop-3.3.2.tar.gz --no-check-certificate
tar zxvf hadoop-3.3.2.tar.gz -C /${proj_base_name}/hadoop

cat >> /etc/profile <<EOF
#Hadoop
export HADOOP_HOME=/${proj_base_name}/hadoop/hadoop-3.3.2
export PATH=\$PATH:\$HADOOP_HOME/bin
export PATH=\$PATH:\$HADOOP_HOME/sbin

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
EOF
 
source /etc/profile
hadoop version
 
diy_custom_config

#配置免密登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys


# 初始化文件系统
bin/hdfs namenode -format
 
# 启动服务
sbin/start-dfs.sh

info "安装完成,访问:http://$(curl ifconfig.me/ip):9870/"
}

install_jdk
install_Hadoop

使用方法:

shell 复制代码
$ vim install-hadoop-Ubuntu20.sh
$ chmod +x install-hadoop-Ubuntu20.sh
$ ./install-hadoop-Ubuntu20.sh
# 感谢淘客科技提供的实验资源环境

二、入门体验

shell 复制代码
#进入hadoop目录
cd /cxy/hadoop/hadoop-3.3.2

#创建用户目录(默认所在目录)
bin/hdfs dfs -mkdir -p /user/root

#创建input文件夹(实际路径:/user/root/input)
bin/hdfs dfs -mkdir input

#上传xml配置文件到input目录
bin/hdfs dfs -put etc/hadoop/*.xml input

# 查看hdfs上根目录
bin/hdfs dfs -ls /

# 查看hdfs的input目录
bin/hdfs dfs -ls input

# mapreduce官方样例
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.2.jar grep input output 'dfs[a-z.]+'

# 到hdfs中看结果
bin/hdfs dfs -cat output/*

# 将结果从hdfs下载到服务器,并在服务器上查看
bin/hdfs dfs -get output output-ecs
cat output-ecs/*

更多信息可访问官网:

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

当然,您也可以关注我,关注后续相关博文。

往期精彩内容推荐

云原生:10分钟了解一下Kubernetes架构
云原生:5分钟了解一下Kubernetes是什么
「快速部署」第二期清单
「快速部署」第一期清单

相关推荐
SelectDB技术团队24 分钟前
Apache Doris 2.1.9 版本正式发布
大数据·数据仓库·数据分析·doris·数据湖·湖仓一体·日志数据
gegeyanxin1 小时前
flink异步读写外部数据源
大数据·flink·异步io·访问外部数据
说私域2 小时前
定制开发开源AI智能名片S2B2C商城小程序:技术赋能商业价值实现路径研究
大数据·人工智能·小程序·开源
Elastic 中国社区官方博客2 小时前
Elasticsearch:使用机器学习生成筛选器和分类标签
大数据·人工智能·elasticsearch·机器学习·搜索引擎·ai·分类
清风19812 小时前
kafka消息可靠性传输语义
数据库·分布式·kafka
小诸葛的博客3 小时前
Kafka、RocketMQ、Pulsar对比
分布式·kafka·rocketmq
zhangjin12223 小时前
kettle插件-postgresql插件
大数据·postgresql·etl·kettle cdc·kettle插件·kettle实时数据同步
数据智能老司机5 小时前
CockroachDB权威指南——SQL调优
数据库·分布式·架构
数据智能老司机5 小时前
CockroachDB权威指南——应用设计与实现
数据库·分布式·架构
天氰色等烟雨5 小时前
Flink 1.20 Kafka Connector:新旧 API 深度解析与迁移指南
大数据