基于ubuntu安装hadoop

前言

提起大数据,就会觉得很厉害,将众多的数据整合在一起,在有条理的呈现在屏幕前的我们。有时候可能会想到底是什么在支撑着大数据,大数据的出现,方便了我们日常生活中的方方面面。那这些海量的数据计算机是怎么存储和分析的呢,那就要引出一个大数据底层支撑平台------hadoop。hadoop具有处理海量数据,支撑多种数据格式,以及快速响应等功能,为数据的挖掘提供工具。

1、安装环境

由于资源有限,使用VMware创建虚拟机,搭建虚拟环境。ubuntu 22.04版本,hadoop3.4.0版本,Jdk8u451版本(jdk版本和hadoop版本一定相互兼容,不然很容易出问题)

hadoop和jdk的版本对照表(源自网上):

Hadoop 版本范围 支持的 Java 版本
Hadoop 3.3.x Java 8 和 Java 11(仅运行时支持,编译需使用 Java 8)
Hadoop 3.0.x - 3.2.x Java 8
Hadoop 2.7.x - 2.10.x Java 7 和 Java 8
Hadoop 2.6.x及以下 Java 6
Hadoop 1.x Java 6

2、安装Jdk8

2.1 本机在官网下载linux(x64位)的jdk8,然后通过ssh连接的软件(xshell或者mobaxterm),放入虚拟机ubuntu下的/opt目录,并解压至/usr/local下。jdk的官网地址:https://www.oracle.com/java/technologies/downloads/

复制代码
cd /opt
mkdir /usr/local/java
tar -zxvf jdk-8u451-linux-x64.tar.gz -C /usr/local/java
cd /usr/local/java

2.2 解压后,将Java加到环境变量当中,并生效

复制代码
vim /etc/profile  #在最末尾加上java的环境变量
#java
JAVA_HOME=/usr/local/java/jdk1.8.0_451  #java的绝对路径
PATH=$PATH:$JAVA_HOME/bin
export PATH JAVA_HOME
 
source /etc/profile

2.3 查看Java版本

复制代码
java -version

3、安装hadoop

3.1 下载和解压hadoop

复制代码
wget https://downloads.apache.org/hadoop/common/hadoop-3.4.0/hadoop-3.4.0.tar.gz
tar -zxf hadoop-3.4.0.tar.gz -C /usr/local  #将hadoop的解压文件放在/usr/local下
cd /usr/local
mv ./hadoop-3.4.0 ./hadoop

3.2 设置hadoop环境变量

复制代码
vi /etc/profile
#文件内容:
export HADOOP_HOME=/usr/local/hadoop   #指向hadoop的绝对路径
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

tail -2 /etc/profile
source /etc/profile
hadoop version

3.2 修改hadoop权限,改成普通用户。当前我的系统有一个普通用户sa

复制代码
chown -R 自己选择一个用户名 ./hadoop

4、验证hadoop

4.1 安装完成后,Hadoop默认模式为非分布式模式, 即单java进程。运行一个grep例子,在hadoop目录下,创建输入文件夹input,并在其中添加测试文件,运行如下命令。

复制代码
mkdir input
echo "dfsabc dfsefg dfsxyz dfs123" > input/file1.txt
echo "dfsabc dfsxyz dfs456" > input/file2.txt
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- mapreduce-examples-3.4.0.jar grep input output 'dfs[a-z.]+'   #在hadoop目录下执行程序
相关推荐
x县豆瓣酱1 小时前
【第五节】部署http接口到ubuntu server上的docker内
ubuntu·http·docker
kikikidult3 小时前
Ubuntu20.04运行openmvg和openmvs实现三维重建(未成功,仅供参考)
人工智能·笔记·ubuntu·计算机视觉
189228048613 小时前
NW728NW733美光固态闪存NW745NW746
大数据·服务器·网络·人工智能·性能优化
杰哥技术分享7 小时前
Ubuntu 22.04安装SQL Server指南
linux·运维·ubuntu·sqlserver
遇见火星7 小时前
ubuntu18.04 升级Ubuntu 20.04
linux·运维·ubuntu·系统升级
x县豆瓣酱7 小时前
【第四节】ubuntu server安装docker
linux·ubuntu·docker
Gene_20227 小时前
【TOOL】ubuntu升级cmake版本
linux·运维·ubuntu
云朵大王8 小时前
SQL 视图与事务知识点详解及练习题
java·大数据·数据库
萤火虫儿飞飞10 小时前
从基础加热到智能生态跨越:艾芬达用创新重构行业价值边界!
大数据·人工智能·重构
seanmeng202210 小时前
Apache Iceberg on AWS - 通过Firehose流式导入数据到Iceberg表
大数据