文章目录
前言
博主介绍:✌目前全网粉丝3W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。
涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。
博主所有博客文件目录索引:博客目录索引(持续更新)
视频平台:b站-Coder长路
本期大数据实战项目功能演示及环境搭建教程(b站):https://www.bilibili.com/video/BV1F6421V7dY
项目介绍
前端:HTML、JS、Echarts、JSP。
后端:tomcat、servlet。
大数据:Hadoop(MapReduce、HDFS)、Hbase、Hive。
服务选用系统:Centos7。
重点:大数据
大数据技术栈的版本选择:
- Hadoop3.1.0:依赖JDK8
- Hive3.1.2:依赖MySQL5.7
- Hbase2.2.4:依赖Hadoop、zookeeper3.4.5
项目任务目标
大数据实训任务:
根据数据特征,设计一个任务场景,开发一个JavaWeb项目,实现如下任务:
(1)原始数据上传到HDFS,前端页面按钮启动文件上传任务,统计分析结果以文件的形式提供下载;
(2)利用MapReduce实现数据的预处理和分析;
(3)利用MapReduce将部分数据存储到Hbase,并实现数据的查询,查询结果显示到前端页面;
(4)利用数据仓库Hive对数据进行统计分析;可以单独执行hive程序进行统计分析;但分析结果要在前端界面展示;
(5)统计分析结果利用Echarts图表进行可视化展示。
要求:所有任务必须能够利用JavaWeb前端页面进行启动和显示结果。
数据集:小麦种子
属性说明
Area, Perimeter, Compactness, Kernel.Length, Kernel.Width, Asymmetry.Coeff, Kernel.Groove, Type
分别是:区域、周长、压实度、籽粒长度、籽粒宽度、不对称系数、籽粒腹沟长度、类别
实际实现的功能拆分内容如下:
shell
本次大数据实验项目所需要完成的项目内容如下:
前端页面使用jsp+html,后端处理请求使用servlet
1、点击上传文件:原始数据上传到HDFS,前端页面按钮启动文件上传任务,将数据将结果上传到HDFS中的/wheat。
2、点击mapreduce按钮:利用MapReduce实现数据的预处理和分析,最终数据结果是在HDFS的/anlysis目录下。
3、通过前端页面按钮点击Hbase存储:发送请求执行将数据存储到Hbase,并实现数据的查询,查询结果显示到前端页面;
4、利用数据仓库Hive对数据进行统计分析;可以单独执行hive程序进行统计分析;
分析结果展示通过要在前端界面点击hive分析结果按钮,来查询统计结果数据,最终使用Echarts图表进行可视化展示。对于数据分析我们是对种子的【区域】字段来进行分范围统计,四个范围如下:
0-11、12-15、15-20、20-30、>30部分。最终是以柱状图形式来展示。
一、VirtualBox安装
1.1、认识VirtualBox
介绍:VirtualBox 是一款开源虚拟机软件,由Sun公司出品,现在则由Oracle进行开发。VirtualBox号称是最强的免费虚拟机软件,它性能优异且简单易用。可虚拟的系统包括Windows、Linux、MacOS、Android等操作系统!本文将使用VirtualBox作为虚拟机来安装Linux系统。
1.2、VirtualBox的下载安装
VirtualBox下载地址:https://www.virtualbox.org/wiki/Downloads
virtualbox建议安装6.1.38,这里提供6.1.38安装包:
下载选择安装路径即可:
二、VirtualBox安装Centos7系统
2.1、VirtualBox安装Centos7
VirtualBox安装Centos7详细安装教程(同可见):https://blog.csdn.net/weixin_46267823/article/details/132940562
准备好centos7的镜像文件如下:
将iso镜像放入到提前准备好的文件目录【images】:
步骤一、点击右边的新建
1、选择类型linux、版本2.6,3.x(64),虚拟电脑文件夹选择在自己提前准备好的空目录下【virtual machines】
2、内存选择2GB即可。
3、现在创建虚拟硬盘,选择VDI,选择动态分配。
4、确定目录,选择30GB
步骤二、设置centos7镜像
1、调整启动顺序:设置-系统-启动顺序,光驱为第一位。
2、选择虚拟光盘centos:设置---存储---属性,添加选择光盘
保存后,右击-启动即可。
步骤三、安装centos过程设置
1、设置时钟:地区选择Asia、城市上海。
2、安装简体中文语言包。
3、软件:server with gui。选择libary、tools、securituy tools
4、进行磁盘分区
关于分区的几个目录的说明:30GB分配
- /:根分区;一般设置10GB。
- swap:交换分区,可以当虚拟内存使用;2GB
- /boot:存储系统的引导信息和内核信息;500MB
- /usr:存储系统应用软件安装信息;10GB
- /var:存储系统日志信息。5GB
5、网络设置---打开网卡,设置主机名
最后开始安装即可,过程中可以设置密码与创建用户。
- 一般设置为root、root即可
可创建新用户:
shell
账号:changlu
密码:123456
步骤四、安装完成后,重新启动,选择license协议确定。进行设置---网络,设置对应的桥接网卡+NAT网卡
指定虚拟机右击-网络:设置一个桥接,一个NAT网卡
网卡1:桥接网卡
网卡2:NAT网卡
启动虚拟机之后,我们可以长按左下角的小电脑标志,即可显示相应的网卡ip地址,之后使用xshell或者其他远程连接工具即可连接该IP地址:
PS:对于Linux系统我们需要本地开启ssh服务,接着将防火墙关闭,此时就能够进行连接了。
关闭防火墙
shell
# 查看状态
systemctl status firewalld
# centos关闭防火墙命令
systemctl stop firewalld
2.2、Centos7配置静态IP地址
可参考如何设置centos7的静态IP(virtualBox版):https://blog.csdn.net/Yang_36368/article/details/127029727
①首先看当前主机的网关地址
cmd中输入:
shell
# 见无线局域网适配器WLAN
ipconfig
②修改网络配置文件
shell
cd /etc/sysconfig/network-scripts/
# 直接修改enp0s3配置文件
vi ifcfg-enp0s3
配置内容直接在ifcfg-enp0s3网卡文件修改(可自行根据主机cmd中的网关地址):
开启网络连接:
配置DNS1:
shell
DNS1: 8.8.8.8
刷新网络配置:
shell
sudo systemctl restart network
2.3、Centos7环境基础配置
准备动作:
可不更换(安装mysql源有问题会使用阿里云的话):
shell
# 安装wget
yum -y install wget
# 若是想使用阿里云源(不建议在后面mysql安装源有问题),则按照如下操作
# ①备份系统自带的yum基础源
# mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak
# ②下载阿里云yum源并配置为yum基础源
# wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo
# 依据更新软件包
yum -y update
# 安装vim
yum -y install vim
配置Hosts文件,访问server域名即可访问对应的IP地址:
shell
vi /etc/hosts
# 文件末尾增加 个人配置的静态ip地址 域名
192.168.80.120 server
# 刷新dns缓存
sudo systemctl restart network
关闭防火墙,不关闭防火墙可能导致无法访问 Hadoop 的 Web UI 界面:
shell
# 查看防火墙状态
sudo firewall-cmd --state
# 关闭防火墙
sudo systemctl stop firewalld
# 设置禁止开机启动
sudo systemctl disable firewalld
三、Windows安装FinalShell及连接Centos7
3.1、FinalShell下载与安装
方式一:资料包中获取
方式二:官网下载
FinalShell网址:http://www.hostbuf.com/
点击下方的windows X64版即可下载:
安装仅需按照步骤下一步即可。
3.2、FinalShell连接虚拟机中的Centos7
shell
# 查看ip地址,一般是ens开头的(之前配置好的静态ip地址)
ip addr
# 关闭防火墙
systemctl status firewalld # stop disable
# 检查sshd是否存在
systemctl status sshd.service
# 可互相ping测试
# 接着使用finalshell测试连接
整理者:长路 时间:2024.2.5