前部安装提示:
建议先将电脑中基础内容进行清洁,维持基础的*++极简主义,++* 通过这样的方式可以快速帮助我们完成软件的安装,同时也是符合计算机的基础网络结构,
什么是hadoop?
处理大数据的分布式存储和计算框架是hadoop,hadoop有三大核心组件:hdfs(++分布式文件管理系统++ ),mapreduce(++分布式运算程序的编程框架,基于hadoop的数据分析应用的核心框架++ )和yarn(++hadoop的资源管理器,提高资源在集群中间的利用率,可以提高执行速率++);本质:分布式系统基础框架。
hadoop的设计思想?
同理,对于单机无法解决的问题,综合利用多个普通机器的做法比打造一台超级计算机的做法更加具有可行性。
可以有效解决处理tb,pb级别的数据量,现在数据增量是一个前所没有的高度:
2014年是我们国家的大数据政策的元年,当年3月份大数据首次写入政府工作报告中,2021年市场规模接近900亿元
hadoop的特点:
- 开源的
- 可靠的
- 可扩展的
- 用于分布式计算的
关于大数据学习之hadoop的安装
配置一个虚拟环境:
好处:
- 安全性会有很高的保障
- 可以通过xshell工具来对虚拟机进行远程访问
所采用的基础软件:
vmware这个基础的软件对其进行配置(功能:搭建一个*++基础的虚拟环境++*)推荐采用的镜像文件:centos7
使用vmare进行基础的环境搭建和配置:
- 点击创建新的虚拟机
- 点击其中的典型或者自定义安装
- 在安装客户机操作系统,点击稍后安装操作系统
因其正在创建配置。选择稍后安装操作系统选项是因为此时正在创建虚拟机的配置,而实际的Linux操作系统安装过程需要在该配置上运行。(360问答)
- 注意,由于在完成点击稍后安装操作系统之后,我们需要再次点击硬盘中的内容,点击自定义中的内容,找到所属自身的镜像文件,创建属于自身的虚拟环境,至于为什么上面一段引用当中已经对于这个问题进行了回答,
个人理解:
linux的操作系统需要在完成vmware所提供的基础计算机配置的基础上开始进行运行,类似于一个基础的先后顺序,所以在这一步的时候,自己一定要尽可能对其注意和调试。
配置ip地址
前言:
基于hadoop集群完全分布集群的特点,所采用的接入网络的方式是:nat(Network Address Translation,网络地址转换)
什么是nat模式?
让虚拟系统借助NAT(网络地址转换)功能,通过宿主机器所在的网络来访问公网。
nat网络的好处是什么?
- 两者相互隔离,
- 原系统不受影响,
- 包括用户的一切操作,不受影响,
- 安装程序、不受影响,
- 甚至运行病毒不受影响,
在运行最开始的时候,要去删除Linux操作系统本身自带jdk,这个jdk会和自身的jdk产生冲突,所以务必对其进行删除,
rpm -qa |grep -i java
其运行结果:
如果有就会显示,如果没有将不会显示
输入基本的命令行开始配置IP地址:
重启网卡的命令:
service network restart
'开始编辑其基础的网络配置文件:
vi /etc/sysconfig/network-scripts/ifcfg-ens33
开始进行知识的科普:
onboot:系统启动时候是否激活了该网卡
bootproto:指定方式获取ip地址
在这个地方,我们将制定的地方调整为static这种静态的方式(需要自己给自己进行手动的配置)
在完成了基础的ip的配置之后,我们将迎来对于远程连接虚拟机的配置流程:
使用xshell来帮助我们进行完成命令的粘贴和复制
配置虚拟机的网络
配置基础ip地址为:192.168.128.0(在这个地方进行改动)
开始下载xshell
进入到官网中进行下载
参考教材:
Hadoop大数据开发基础(第2版)(微课版)|中国工信出版集团|人民邮电出版社
书中的教材有些许老旧,这里也粘贴以下自己参考其他博主的链接和其内容:
https://zhuanlan.zhihu.com/p/558067519
#帖子:Hadoop入门(二):手把手带你从零基础到完整安装配置