大数据实训项目(小麦种子)-01、VirtualBox安装与Centos7系统安装

文章目录

前言

博主介绍:✌目前全网粉丝3W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。

涵盖技术内容:Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。

博主所有博客文件目录索引:博客目录索引(持续更新)

视频平台:b站-Coder长路

本期大数据实战项目功能演示及环境搭建教程(b站)https://www.bilibili.com/video/BV1F6421V7dY


项目介绍

前端:HTML、JS、Echarts、JSP。

后端:tomcat、servlet。

大数据:Hadoop(MapReduce、HDFS)、Hbase、Hive。

服务选用系统:Centos7。

重点:大数据

大数据技术栈的版本选择:

  • Hadoop3.1.0:依赖JDK8
  • Hive3.1.2:依赖MySQL5.7
  • Hbase2.2.4:依赖Hadoop、zookeeper3.4.5

项目任务目标

大数据实训任务

根据数据特征,设计一个任务场景,开发一个JavaWeb项目,实现如下任务:
(1)原始数据上传到HDFS,前端页面按钮启动文件上传任务,统计分析结果以文件的形式提供下载;
(2)利用MapReduce实现数据的预处理和分析;
(3)利用MapReduce将部分数据存储到Hbase,并实现数据的查询,查询结果显示到前端页面;
(4)利用数据仓库Hive对数据进行统计分析;可以单独执行hive程序进行统计分析;但分析结果要在前端界面展示;
(5)统计分析结果利用Echarts图表进行可视化展示。
要求:所有任务必须能够利用JavaWeb前端页面进行启动和显示结果。

数据集:小麦种子

属性说明
Area,  Perimeter,  Compactness,  Kernel.Length,  Kernel.Width,  Asymmetry.Coeff,  Kernel.Groove,  Type
分别是:区域、周长、压实度、籽粒长度、籽粒宽度、不对称系数、籽粒腹沟长度、类别

实际实现的功能拆分内容如下

shell 复制代码
本次大数据实验项目所需要完成的项目内容如下:
前端页面使用jsp+html,后端处理请求使用servlet
1、点击上传文件:原始数据上传到HDFS,前端页面按钮启动文件上传任务,将数据将结果上传到HDFS中的/wheat。 
2、点击mapreduce按钮:利用MapReduce实现数据的预处理和分析,最终数据结果是在HDFS的/anlysis目录下。
3、通过前端页面按钮点击Hbase存储:发送请求执行将数据存储到Hbase,并实现数据的查询,查询结果显示到前端页面;
4、利用数据仓库Hive对数据进行统计分析;可以单独执行hive程序进行统计分析;
	分析结果展示通过要在前端界面点击hive分析结果按钮,来查询统计结果数据,最终使用Echarts图表进行可视化展示。对于数据分析我们是对种子的【区域】字段来进行分范围统计,四个范围如下:
0-11、12-15、15-20、20-30、>30部分。最终是以柱状图形式来展示。

一、VirtualBox安装

1.1、认识VirtualBox

介绍:VirtualBox 是一款开源虚拟机软件,由Sun公司出品,现在则由Oracle进行开发。VirtualBox号称是最强的免费虚拟机软件,它性能优异且简单易用。可虚拟的系统包括Windows、Linux、MacOS、Android等操作系统!本文将使用VirtualBox作为虚拟机来安装Linux系统。


1.2、VirtualBox的下载安装

VirtualBox下载地址:https://www.virtualbox.org/wiki/Downloads

virtualbox建议安装6.1.38,这里提供6.1.38安装包:

下载选择安装路径即可:


二、VirtualBox安装Centos7系统

2.1、VirtualBox安装Centos7

VirtualBox安装Centos7详细安装教程(同可见):https://blog.csdn.net/weixin_46267823/article/details/132940562

准备好centos7的镜像文件如下

将iso镜像放入到提前准备好的文件目录【images】:

步骤一、点击右边的新建

1、选择类型linux、版本2.6,3.x(64),虚拟电脑文件夹选择在自己提前准备好的空目录下【virtual machines】

2、内存选择2GB即可。

3、现在创建虚拟硬盘,选择VDI,选择动态分配。

4、确定目录,选择30GB

步骤二、设置centos7镜像

1、调整启动顺序:设置-系统-启动顺序,光驱为第一位。

2、选择虚拟光盘centos:设置---存储---属性,添加选择光盘

保存后,右击-启动即可。

步骤三、安装centos过程设置

1、设置时钟:地区选择Asia、城市上海。

2、安装简体中文语言包。

3、软件:server with gui。选择libary、tools、securituy tools

4、进行磁盘分区

关于分区的几个目录的说明:30GB分配

  • /:根分区;一般设置10GB。
  • swap:交换分区,可以当虚拟内存使用;2GB
  • /boot:存储系统的引导信息和内核信息;500MB
  • /usr:存储系统应用软件安装信息;10GB
  • /var:存储系统日志信息。5GB

5、网络设置---打开网卡,设置主机名

最后开始安装即可,过程中可以设置密码与创建用户。

  • 一般设置为root、root即可

可创建新用户:

shell 复制代码
账号:changlu
密码:123456

步骤四、安装完成后,重新启动,选择license协议确定。进行设置---网络,设置对应的桥接网卡+NAT网卡

指定虚拟机右击-网络:设置一个桥接,一个NAT网卡

网卡1:桥接网卡

网卡2:NAT网卡

启动虚拟机之后,我们可以长按左下角的小电脑标志,即可显示相应的网卡ip地址,之后使用xshell或者其他远程连接工具即可连接该IP地址:

PS:对于Linux系统我们需要本地开启ssh服务,接着将防火墙关闭,此时就能够进行连接了。

关闭防火墙

shell 复制代码
# 查看状态
systemctl status firewalld

# centos关闭防火墙命令
systemctl stop firewalld

2.2、Centos7配置静态IP地址

可参考如何设置centos7的静态IP(virtualBox版):https://blog.csdn.net/Yang_36368/article/details/127029727

①首先看当前主机的网关地址

cmd中输入:

shell 复制代码
# 见无线局域网适配器WLAN
ipconfig

②修改网络配置文件

shell 复制代码
cd /etc/sysconfig/network-scripts/

# 直接修改enp0s3配置文件
vi ifcfg-enp0s3

配置内容直接在ifcfg-enp0s3网卡文件修改(可自行根据主机cmd中的网关地址):

开启网络连接:

配置DNS1:

shell 复制代码
DNS1: 8.8.8.8

刷新网络配置:

shell 复制代码
sudo systemctl restart network

2.3、Centos7环境基础配置

准备动作

可不更换(安装mysql源有问题会使用阿里云的话):

shell 复制代码
# 安装wget
yum -y install wget

# 若是想使用阿里云源(不建议在后面mysql安装源有问题),则按照如下操作
# ①备份系统自带的yum基础源
# mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak
# ②下载阿里云yum源并配置为yum基础源
# wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

# 依据更新软件包
yum -y update

# 安装vim
yum -y install vim

配置Hosts文件,访问server域名即可访问对应的IP地址:

shell 复制代码
vi /etc/hosts

# 文件末尾增加 个人配置的静态ip地址  域名
192.168.80.120 server

# 刷新dns缓存
sudo systemctl restart network

关闭防火墙,不关闭防火墙可能导致无法访问 Hadoop 的 Web UI 界面:

shell 复制代码
# 查看防火墙状态
sudo firewall-cmd --state

# 关闭防火墙
sudo systemctl stop firewalld

# 设置禁止开机启动
sudo systemctl disable firewalld

三、Windows安装FinalShell及连接Centos7

3.1、FinalShell下载与安装

方式一:资料包中获取

方式二:官网下载

FinalShell网址:http://www.hostbuf.com/

点击下方的windows X64版即可下载:

安装仅需按照步骤下一步即可。


3.2、FinalShell连接虚拟机中的Centos7

shell 复制代码
# 查看ip地址,一般是ens开头的(之前配置好的静态ip地址)
ip addr

# 关闭防火墙
systemctl status firewalld  # stop  disable

# 检查sshd是否存在
systemctl status sshd.service

# 可互相ping测试
# 接着使用finalshell测试连接

整理者:长路 时间:2024.2.5

相关推荐
NiNg_1_23417 分钟前
基于Hadoop的数据清洗
大数据·hadoop·分布式
成长的小牛2331 小时前
es使用knn向量检索中numCandidates和k应该如何配比更合适
大数据·elasticsearch·搜索引擎
goTsHgo2 小时前
在 Spark 上实现 Graph Embedding
大数据·spark·embedding
程序猿小柒2 小时前
【Spark】Spark SQL执行计划-精简版
大数据·sql·spark
隔着天花板看星星2 小时前
Spark-Streaming集成Kafka
大数据·分布式·中间件·spark·kafka
奥顺2 小时前
PHPUnit使用指南:编写高效的单元测试
大数据·mysql·开源·php
小屁孩大帅-杨一凡2 小时前
Flink 简介和简单的demo
大数据·flink
天冬忘忧2 小时前
Flink调优----反压处理
大数据·flink
sinat_307021532 小时前
大数据政策文件——职业道德(山东省大数据职称考试)
大数据·职场和发展
SeaTunnel2 小时前
某医疗行业用户基于Apache SeaTunnel从调研选型到企业数据集成框架的落地实践
大数据