华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案(1)

上一篇:

华为hcip-big data 学习笔记《一》大数据应用开发总指导-CSDN博客

华为hcip-big data 学习笔记《一》大数据应用开发总指导(2)-CSDN博客

华为hcip-big data 学习笔记《一》大数据应用开发总指导(3)-CSDN博客

目录

[1. 离线处理方案](#1. 离线处理方案)

[1.1 前言](#1.1 前言)

[1.2 目标](#1.2 目标)

[1.3 业务场景-安平领域](#1.3 业务场景-安平领域)

[1.4 概念](#1.4 概念)

[1.5 核心诉求](#1.5 核心诉求)

[1.6 离线批处理流程图](#1.6 离线批处理流程图)

[1.7 常用组件](#1.7 常用组件)


1. 离线处理方案

1.1 前言

进入大数据时代,企业产生的数据出现爆发式增长,部分数据需要实现离线存储分析,而传统的数据处理方案满足不了海量数据存储和海量数据处理需求。结合大数据离线技术,如何提出行之有效的解决方案以及如何去实施应用,成为企业面临的难题。

1.2 目标

学完本课程后,您将能够:

  • 熟悉离线批处理应用场景

  • 数据离线批处理采用的技术方案

  • 学习离线批处理的实际案例

1.3 业务场景-安平领域

1.4 概念

离线批处理,是指对海量历史数据进行处理和分析,生成结果数据,供下一步数据应用使用的过程。

离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业,Spark作业或者HQL作业实现。

1.5 核心诉求

  • 处理时间要求不高

  • 处理数据量巨大

  • 处理数据格式多样

  • 支持SQL类作业和自定义作业

1.6 离线批处理流程图

1.7 常用组件

  • HDFS:分布式文件系统,为各种批处理引擎提供数据存储,可以存储各种文件格式数据。

  • YARN:资源调度引擎,为各种批处理引擎提供资源调度能力

  • MapReduce:大数据批处理引擎,用于处理海量数据,但是处理速度较慢

  • Hive:大数据SQL批处理引擎,用于处理SQL类批处理作业,但是处理速度较慢。

  • Spark:基于内存的数据处理引擎,适合海量数据,处理速度高效。

    • Spark SQL:Spark处理结构化数据的一个模块。
相关推荐
m0_749317529 分钟前
springboot优先级和ThreadLocal
java·开发语言·spring boot·后端·学习·spring
API_Zevin32 分钟前
如何优化亚马逊广告以提高ROI?
大数据·开发语言·前端·后端·爬虫·python·学习
不是只有你能在乱世中成为大家的救世主1 小时前
学习第六十二行
c语言·c++·学习·gitee
工程师老罗1 小时前
我用AI学Android Jetpack Compose之Jetpack Compose学习路径篇
android·学习·android jetpack
玩具工匠1 小时前
字玩FontPlayer开发笔记3 性能优化 大量canvas渲染卡顿问题
前端·javascript·vue.js·笔记·elementui·typescript
14_111 小时前
Cherno C++学习笔记 P49 C++中使用静态库
c++·笔记·学习
studyForMokey1 小时前
【Android学习】Adapter中使用Context
android·学习·kotlin
StevenGerrad1 小时前
【读书笔记/源码】How Tomcat Works 笔记 - c1~c10
java·笔记·tomcat
Jackilina_Stone3 小时前
【HUAWEI】HCIP-AI-MindSpore Developer V1.0 | 第一章 神经网络基础( 1 人工神经网络 ) | 学习笔记
人工智能·神经网络·学习·hcip·huawei
安冬的码畜日常3 小时前
【Vim Masterclass 笔记08】第 6 章:Vim 中的文本变换及替换操作 + S06L20:文本的插入、变更、替换,以及合并操作
笔记·vim