SCAU数据科学与大数据技术导论期末整理(1-3章)

第1 部分:基础部分(第1-3 章)

第1 章数据科学概述

1、数据的概念:

单选题1.2

数据的表现形式包括()

A.视频 B.符号

C.图像 D.以上全部

答案:D

数据的表现形式有很多,包括符号、文字、数字、音频、图像、视频等

简述题1.1

简述数据与信息之间的关系

数据指的是事实或经过观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据的表现形式有很多,包括符号、文字、数字、音频、图像、视频等。信息是对客观世界中各种事物的运动状态和变化的反映,是数据有意义的表示。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。

2、数据的分类:

单选题1.1

数据的结构类型包括()

A.结构化数据 B.半结构化数据

C.非结构化数据 D.以上全部

答案:D

3、数据模型:

填空题1.1

数据模型按照不同的应用层次可以分为三种类型:++概念模型、逻辑模型、物理模型++

4、数据科学的概念:

单选题1.4

数据科学的研究步骤不包括()

A.数据业务化 B.获取数据集

C.对数据进行预处理 D.数据感知化呈现

答案:A

简述题1.3

列出数据科学的研究步骤

填空题1.2

数据科学是关于**++数据++** 的科学,是探索和发现数据中价值的++理论++ 、方法和++技术++,是对从数据中提取知识的研究。

5、数据科学的研究内容:

填空题1.5

数据科学的研究内容有++领域数据科学++ 、++数据资源开发++、用科学研究数据和用数据研究科学。

简述题1.5

数据科学的研究内容主要有哪些

第2 章大数据概述

1、大数据的发展历程:

填空题2.1

大数据发展的四阶段分别为:萌芽阶段、++突破阶段、成熟阶段、应用阶段++

2、大数据的概念与特征:

单选题2.3

以下()不是大数据的特征

A.数据量大 B.价值密度高

C.数据种类繁多 D.处理速度快

答案:B

填空题2.3

大数据的5个特征是:++数据量大、数据种类繁多、处理速度快、价值密度低、真实性强++

3、大数据的核心技术:

简述题2.2

列出大数据的六个核心技术

4、大数据的价值:

填空题2.4

大数据的价值体现在++发现规律++ 和++预测未来++两个方面

第3 章大数据与云计算

1、云计算的特点:

填空题3.1

任意列出云计算的四个特点:

2、云计算分类:

填空题3.3

根据服务类型,云计算可以分为:

基础设施即服务------IaaS

平台即服务------PaaS

软件即服务------SaaS

数据即服务------DaaS

3、云计算的核心技术:

填空题3.4

云计算的核心技术有:++编程模型、分布式技术、虚拟化技术、云平台技术++

简述题3.4

简述云计算的核心技术

云计算的核心技术包括编程模型、分布式技术、虚拟化技术、云平台技术;

  • 编程模型:以 MapReduce 为代表,它是简化的分布式编程模型,由谷歌开发,支持 Python、Java、C++ 等语言。通过将问题分解为 Map(映射)和 Reduce(化简)两个阶段,先把输入数据集切分成独立数据块,由多台计算机并行运算处理,再汇总输出结果。
  • 分布式技术:包含分布式计算和分布式存储。分布式计算是将不同地理位置的计算机资源组成集群,把大任务分割成小任务单元分配给不同计算机处理后汇总结果,具有模块结构化、资源分散、任务并行、整体强健、实时性强等特点;分布式存储有中心化和去中心化两种体系架构,中心化架构以一个节点为中心,管理方便但中心节点负载重且易影响整体系统,去中心化架构各节点功能均等、负载均衡但管理难度大,二者在可扩展性、可维护性等性能上各有优劣。
  • 虚拟化技术:分为基础设施虚拟化、系统虚拟化和软件虚拟化。基础设施虚拟化涵盖硬件、网络、存储、文件虚拟化,分别实现硬件配置虚拟、网络资源整合、存储逻辑接口统一、分散文件逻辑接口整合;系统虚拟化可将物理计算机与操作系统分离,让一台物理计算机运行多个虚拟操作系统,为虚拟机提供虚拟的处理器、内存等硬件环境;软件虚拟化通过虚拟软件包放置应用程序和数据,具有减小应用冲突、减少导入时间、可运行同一应用多个版本等特点,典型应用产品有 Java 虚拟机、APP - V、VMware Thin App 等。
  • 云平台技术:以 Amazon 云平台(AWS)为代表,提供计算、存储、数据库、应用程序等服务,采用去中心化的分布式架构,存储采用 Dynamo 架构,以键值对、位的形式存储数据,适用于简单存取写入的场景,相比传统关系型数据库能提高存储效率。

填空题3.7

虚拟化技术包括:++基础设施虚拟化、系统虚拟化、软件虚拟化++

相关推荐
第二只羽毛几秒前
图书管理系统项目PPT文稿
java·大数据·开发语言·ide
_OP_CHEN19 分钟前
【Git原理与使用】(六)Git 企业级开发模型实战:从分支规范到 DevOps 全流程落地
大数据·linux·git·gitee·项目管理·devops·企业级组件
知识分享小能手36 分钟前
CentOS Stream 9入门学习教程,从入门到精通,CentOS Stream 9 中大数据 —语法详解与实战案例(15)
大数据·学习·centos
Jackyzhe1 小时前
Flink源码阅读:如何生成JobGraph
大数据·flink
笨蛋少年派1 小时前
大数据体系认知
大数据
艾莉丝努力练剑1 小时前
【Python基础:语法第六课】Python文件操作安全指南:告别资源泄露与编码乱码
大数据·linux·运维·人工智能·python·安全·pycharm
老蒋新思维9 小时前
创客匠人峰会深度解析:知识变现的 “信任 - 效率” 双闭环 —— 从 “单次交易” 到 “终身复购” 的增长密码
大数据·网络·人工智能·tcp/ip·重构·数据挖掘·创客匠人
EveryPossible11 小时前
优先级调整练习1
大数据·学习
B站计算机毕业设计之家12 小时前
基于大数据热门旅游景点数据分析可视化平台 数据大屏 Flask框架 Echarts可视化大屏
大数据·爬虫·python·机器学习·数据分析·spark·旅游
亿坊电商14 小时前
无人共享茶室智慧化破局:24H智能接单系统的架构实践与运营全景!
大数据·人工智能·架构