大数据分析应用-初级
[第一部分 基础知识](#第一部分 基础知识)
[第二部分 专业知识](#第二部分 专业知识)
大数据处理技术
- 大数据分析应用-初级
- 前言
- 一、云计算
- 二、常见可视化图形的概念
- 练习题目
前言
大数据处理技术
1、掌握云计算的概念、云计算的特征、云计算的三层SPI模型(IaaS、PaaS、SaaS)。
2、了解虚拟化技术的概念、常用虚拟化方法,了解常用虚拟化软件。
3、具有应用虚拟化技术搭建虚拟化平台的能力。
一、云计算
一、云计算的概念
云计算是一种通过互联网提供计算服务(包括服务器、存储、数据库、网络、软件、分析等)的模式。它使得用户能够通过网络按需获取计算资源,而无需自己构建和维护复杂的 IT 基础设施。就像是从电力公司获取电力一样,用户只需使用这些计算资源来运行自己的应用程序、存储数据等,而不用关心这些资源实际位于何处以及是如何维护的。
例如,一个小型创业公司想要搭建一个电商网站。在传统模式下,它需要购买服务器、存储设备,安装操作系统、数据库软件等一系列复杂的操作。但借助云计算,它可以从云服务提供商那里租用计算资源,快速搭建网站,节省大量的前期硬件投入和技术维护精力。
二、云计算的特征
支持异构基础资源
云计算可以构建在不同的基础平台之上,能够有效兼容各种不同种类的硬件和软件基础资源3。
支持资源动态扩展
支持资源动态伸缩,实现基础资源的网络冗余,添加、删除、修改云计算环境的任一资源节点,或者任一资源节点异常宕机,都不会导致云环境中的各类业务中断,也不会导致用户数据丢失。这里的资源节点包含计算节点、存储节点和网络节点。并且资源能够动态流转,例如在系统业务整体升高时,可以启动闲置资源纳入系统,提高云平台承载能力;在系统业务负载低时,可以集中业务,将闲置资源转入节能模式,提高部分资源利用率并实现其他资源绿色、低碳应用效果。
支持异构多业务体系
在云计算平台上,可以同时运行多个不同类型的业务。异构表示业务是用户可以自己创建并定义的服务,而非同一的、已有的或事先定义好的服务,这也是云计算与网格计算的一个重要差异。
支持海量信息处理
云计算在底层要面对各类众多的基础软硬件资源,在上层要能同时支持各类众多的异构业务,对于具体某一业务往往也需要面对大量用户,所以必然需要面对海量信息交互,要有高效、稳定的海量数据通信/存储系统作支撑。
按需分配,按量计费
按需分配是云计算平台支持资源动态流转的外部特征表现。云计算平台通过虚拟分拆技术,实现计算资源的同构化和可度量化,能提供小到一台计算机,多到千台计算机的计算能力。按量计费起源于效用计算,在云计算平台实现按需分配后,按量计费成为向外提供服务时的有效收费形式
三、云计算的三层 SPI 模型(IaaS、PaaS、SaaS)
基础设施即服务(IaaS - Infrastructure as a Service)
概念:IaaS 提供了基本的计算基础设施,包括服务器、存储、网络等硬件资源。用户可以在这些基础设施上安装操作系统、部署应用程序等。就像是租了一块土地,用户可以在上面盖自己想要的房子。
示例:亚马逊的 AWS EC2(弹性计算云)是典型的 IaaS 服务。用户可以租用虚拟机,根据自己的需求配置 CPU、内存、存储等资源,然后在虚拟机上安装和运行自己的软件,如数据库管理系统、Web 服务器等。
用户群体:主要是系统管理员和开发人员。系统管理员可以利用 IaaS 构建和管理企业的 IT 基础设施,开发人员可以利用它快速搭建开发和测试环境。
平台即服务(PaaS - Platform as a Service)
概念:PaaS 在 IaaS 的基础上,提供了一个完整的开发和运行平台,包括操作系统、数据库、中间件、开发工具等。用户可以在这个平台上直接开发、部署和运行自己的应用程序,而无需关心底层的基础设施。这就好比是在一个已经装修好的公寓里居住,用户只需要布置自己的家具就可以了。
示例:谷歌的 App Engine 是一种 PaaS 服务。开发人员可以使用 App Engine 提供的开发框架和工具,编写代码并直接将应用程序部署到平台上。平台会自动处理资源的分配、扩展等事务。
用户群体:主要是软件开发人员。他们可以专注于应用程序的开发,利用平台提供的各种服务来提高开发效率,快速推出应用。
软件即服务(SaaS - Software as a Service)
概念:SaaS 是通过互联网提供软件应用服务的模式。用户不需要在本地安装软件,而是通过浏览器等方式直接使用云端的软件。这就像是使用在线的文档编辑软件,用户只要打开网页,登录账号就可以使用,而不需要在自己的电脑上安装该软件。
示例:Salesforce 是一款著名的 SaaS 客户关系管理(CRM)软件。企业用户可以通过浏览器访问 Salesforce 平台,进行客户信息管理、销售机会跟踪等操作,软件的更新、维护等工作都由云服务提供商负责。
用户群体:各类企业用户和普通消费者。他们可以根据自己的需求,选择合适的 SaaS 软件来完成工作任务或满足个人需求,如办公自动化软件、项目管理软件等。
二、虚拟化技术
虚拟化技术的概念
虚拟化技术意味着对计算机资源的抽象,是一种资源管理技术。它将电脑的各种实体资源(CPU、内存、磁盘空间、网络适配器等)予以抽象、转换后呈现出来,并可供分割、组合为一个或多个电脑配置环境。虚拟化技术通过模拟真实的(或称物理的)计算机资源,使得在一台计算机上能够同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。
常用虚拟化方法
虚拟化技术有多种类型,每种类型都对应着不同的虚拟化方法。以下是几种常见的虚拟化方法:
- 硬件虚拟化:也称为服务器虚拟化,它在单个物理服务器中运行多个虚拟机。所有正在执行的虚拟服务器都可以共享系统管理程序(底层硬件和虚拟机之间的软件层)上物理服务器的资源(CPU、内存、存储等)。常见的硬件虚拟化产品包括VMware vSphere、Citrix XenServer和Microsoft Hyper-V。
- 软件虚拟化:在物理主机上创建多个虚拟化环境,创建一个完整的计算机系统,该系统具有允许来宾操作系统运行的硬件。
- 内存虚拟化:将不同服务器上的物理内存聚合到一个虚拟化内存池中,由VMM动态分配与管理,保证每个虚拟机都有自己独立的内存运行空间。
- 存储虚拟化:向主机系统提供物理存储资源的逻辑视图,可以简单理解为将多个物理存储组合在一起,并将它们显示为单个存储设备。
- 网络虚拟化:将所有物理网络工具组合到一个基于软件的资源(虚拟网络)中,通常与平台虚拟化有关,并与资源虚拟化一起使用。
- 桌面虚拟化:也称为虚拟桌面基础设施(VDI),将桌面环境、软件和用于访问该软件的物理客户端设备分离,并将用户的桌面存储在远程服务器上,以便用户可以从另一个位置远程访问桌面。
- 数据虚拟化:一种数据管理方法,当数据源的格式或物理位置尚不清楚时,它会检索和操作数据,为客户提供数据的整体视图。
常用虚拟化软件
以下是几种常用的虚拟化软件及其特点:
- VMware Workstation:功能强大的桌面虚拟计算机软件,支持多种操作系统同时运行,为用户提供了高度灵活的虚拟化环境。
- VirtualBox:开源虚拟机软件,具有跨平台特性,可以在Windows、Linux和macOS等各种操作系统上运行。
- Microsoft Hyper-V:微软推出的虚拟化技术,紧密集成于Windows系统中,让用户能够轻松地创建和管理虚拟机。
- Parallels Desktop:专为macOS设计的虚拟机软件,支持Mac用户流畅地运行Windows和其他操作系统。
- QEMU:功能强大的开源虚拟化工具,能够模拟多种硬件架构和操作系统,适用于开发人员和专业用户。
- KVM:基于Linux内核模块的虚拟化平台,可以将物理主机转变为虚拟化平台,提供高性能的虚拟机性能。
- Docker:提供轻量级的容器化技术,用于快速部署应用程序和服务,其高效性和可移植性备受开发者青睐。
应用虚拟化技术搭建虚拟化平台的能力
应用虚拟化技术搭建虚拟化平台需要具备一定的技术能力和实践经验。以下是一个简要的搭建过程:
- 需求分析:明确虚拟化平台的需求和目标,包括需要虚拟化的资源类型、数量、性能要求等。
- 选择虚拟化软件:根据需求分析的结果,选择合适的虚拟化软件。例如,如果需要搭建服务器虚拟化平台,可以选择VMware vSphere、Citrix XenServer或Microsoft Hyper-V等。
- 安装和配置虚拟化软件:按照虚拟化软件的安装指南进行安装和配置。这通常包括安装虚拟化软件、配置虚拟机、分配资源等步骤。
- 部署虚拟机:在虚拟化平台上部署虚拟机,并安装所需的操作系统和应用程序。
- 测试和优化:对虚拟化平台进行测试,确保虚拟机能够正常运行并满足性能要求。根据测试结果进行优化和调整。
- 管理和维护:对虚拟化平台进行管理和维护,包括监控虚拟机的运行状态、备份和恢复数据、更新和升级虚拟化软件等。
练习题目
(一)单选题
1.云计算是一种通过( )提供计算服务的模式。
A. 局域网
B. 广域网
C. 互联网
D. 城域网
答案:C
解析:云计算的核心特点是通过互联网来提供服务器、存储、数据库等计算服务,让用户能够按需获取这些资源,而不是通过局域网、广域网或城域网这些相对较窄的网络定义范围。
2.以下哪项不是云计算的特征?( )
A. 按需自助服务
B. 有限的网络访问
C. 资源池化
D. 快速弹性伸缩
答案:B
解析:云计算的特征包括按需自助服务、广泛的网络访问、资源池化、快速弹性伸缩和可计量的服务。"有限的网络访问" 不符合云计算的特点,云计算是可以通过多种网络设备利用标准浏览器等方式广泛访问的。
3.在云计算的 SPI 模型中,提供基本计算基础设施(如服务器、存储、网络)的是( )。
A. SaaS
B. PaaS
C. IaaS
D. DaaS(数据即服务)
答案:C
解析:IaaS(基础设施即服务)提供了服务器、存储、网络等基本的硬件基础设施,用户可以在这些基础上安装操作系统和部署应用程序;SaaS 是软件即服务,主要提供软件应用服务;PaaS 是平台即服务,提供开发和运行平台包括操作系统、数据库等平台组件。
(二)多选题
1.云计算的特征包括以下哪些?( )
A. 可计量的服务
B. 本地资源独占
C. 快速弹性伸缩
D. 资源池化
答案:ACD
解析:云计算是资源共享的模式,不是本地资源独占。可计量的服务、快速弹性伸缩和资源池化都是云计算的典型特征,可计量的服务方便按照使用量收费,快速弹性伸缩能根据用户负载动态调整资源,资源池化是将计算资源整合共享。
2.以下属于云计算 SPI 模型的有( )。
A. IaaS
B. CaaS(容器即服务)
C. PaaS
D. SaaS
答案:ACD
解析:云计算的 SPI 模型主要包括 IaaS(基础设施即服务)、PaaS(平台即服务)和 SaaS(软件即服务),CaaS 不是 SPI 模型中的标准组成部分,虽然容器技术在云计算中有应用,但这不是 SPI 模型的经典分类。
(三)判断题
1.云计算中用户必须要自己构建和维护复杂的 IT 基础设施。( )
答案:错误
解析:云计算的一个重要特点就是用户不需要自己构建和维护复杂的 IT 基础设施,而是通过互联网从云服务提供商那里按需获取计算资源来运行应用程序、存储数据等。
2.SaaS 模式下,用户需要在本地安装软件才能使用服务。( )
答案:错误
解析:SaaS(软件即服务)是通过互联网提供软件应用服务的模式,用户不需要在本地安装软件,而是通过浏览器等方式直接使用云端的软件。
二、虚拟化技术相关题目
(一)单选题
1.以下哪种虚拟化方法需要对操作系统进行修改?( )
A. 完全虚拟化
B. 准虚拟化
C. 操作系统虚拟化
D. 网络虚拟化
答案:B
解析:准虚拟化需要对操作系统进行修改,使操作系统知道自己是在虚拟环境中运行,通过修改内核来更好地与虚拟化层协作,减少硬件模拟开销;完全虚拟化操作系统不需要修改;操作系统虚拟化是利用操作系统内核功能创建容器,不是修改操作系统来实现硬件虚拟化;网络虚拟化主要涉及网络资源的抽象和分配,与操作系统修改无关。
2.下列哪个是开源的虚拟化软件?( )
A. VMware vSphere
B. Hyper - V
C. VirtualBox
D. XenServer
答案:C
解析:VirtualBox 是开源的虚拟化软件,适用于多种操作系统,方便个人用户和开发者;VMware vSphere 是企业级虚拟化软件,不是开源的;Hyper - V 是微软推出的主要用于 Windows Server 环境的软件,不是开源的;XenServer 虽然也是虚拟化软件,但在这里选项中 VirtualBox 是明确的开源软件。
(二)多选题
1.硬件虚拟化包括以下哪些方法?( )
A. 完全虚拟化
B. 准虚拟化
C. 存储虚拟化
D. 网络虚拟化
答案:AB
解析:硬件虚拟化主要包括完全虚拟化和准虚拟化,完全虚拟化模拟完整物理计算机硬件,准虚拟化需要对操作系统进行修改;存储虚拟化和网络虚拟化是从资源类型角度划分的虚拟化方式,不属于硬件虚拟化方法。
2.虚拟化软件的功能通常包括( )。
A. 虚拟机创建
B. 虚拟机管理
C. 虚拟机迁移
D. 物理机克隆
答案:ABC
解析:虚拟化软件一般可以进行虚拟机创建、管理(如资源配置调整等)和迁移(在不同物理机或存储之间移动虚拟机),物理机克隆不是虚拟化软件的典型功能,它主要是围绕虚拟机相关操作。
(三)判断题
1.操作系统虚拟化中,容器之间完全独立,互不影响。( )
答案:错误
解析:操作系统虚拟化是在操作系统层面进行虚拟化,容器共享操作系统内核,虽然每个容器有自己独立的文件系统、进程空间等,但如果内核出现问题,所有容器都会受到影响,而且容器之间的隔离性相对硬件虚拟化较弱。
2.完全虚拟化的性能开销比准虚拟化小。( )
答案:错误
解析:完全虚拟化由于需要模拟完整的硬件环境,性能开销相对较大,准虚拟化通过修改操作系统内核与虚拟化层协作,减少了不必要的硬件模拟,性能比完全虚拟 化要好。