上一篇:
华为hcip-big data 学习笔记《一》大数据应用开发总指导-CSDN博客
华为hcip-big data 学习笔记《一》大数据应用开发总指导(2)-CSDN博客
华为hcip-big data 学习笔记《一》大数据应用开发总指导(3)-CSDN博客
目录
[1. 离线处理方案](#1. 离线处理方案)
[1.1 前言](#1.1 前言)
[1.2 目标](#1.2 目标)
[1.3 业务场景-安平领域](#1.3 业务场景-安平领域)
[1.4 概念](#1.4 概念)
[1.5 核心诉求](#1.5 核心诉求)
[1.6 离线批处理流程图](#1.6 离线批处理流程图)
[1.7 常用组件](#1.7 常用组件)
1. 离线处理方案
1.1 前言
进入大数据时代,企业产生的数据出现爆发式增长,部分数据需要实现离线存储分析,而传统的数据处理方案满足不了海量数据存储和海量数据处理需求。结合大数据离线技术,如何提出行之有效的解决方案以及如何去实施应用,成为企业面临的难题。
1.2 目标
学完本课程后,您将能够:
-
熟悉离线批处理应用场景
-
数据离线批处理采用的技术方案
-
学习离线批处理的实际案例
1.3 业务场景-安平领域
1.4 概念
离线批处理,是指对海量历史数据进行处理和分析,生成结果数据,供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业,Spark作业或者HQL作业实现。
1.5 核心诉求
-
处理时间要求不高
-
处理数据量巨大
-
处理数据格式多样
-
支持SQL类作业和自定义作业
1.6 离线批处理流程图
1.7 常用组件
-
HDFS:分布式文件系统,为各种批处理引擎提供数据存储,可以存储各种文件格式数据。
-
YARN:资源调度引擎,为各种批处理引擎提供资源调度能力
-
MapReduce:大数据批处理引擎,用于处理海量数据,但是处理速度较慢
-
Hive:大数据SQL批处理引擎,用于处理SQL类批处理作业,但是处理速度较慢。
-
Spark:基于内存的数据处理引擎,适合海量数据,处理速度高效。
- Spark SQL:Spark处理结构化数据的一个模块。