华为hcip-big data 学习笔记《一》大数据应用开发总指导(2)

上一篇:

华为hcip-big data 学习笔记《一》大数据应用开发总指导-CSDN博客

目录

[2. 大数据场景化解决方案](#2. 大数据场景化解决方案)

[2.1 大数据应用](#2.1 大数据应用)

[2.2 场景化解决方案的分类](#2.2 场景化解决方案的分类)

[1. 离线批处理](#1. 离线批处理)

[2. 实时检索](#2. 实时检索)

[3. 实时流处理](#3. 实时流处理)

[4. 融合数仓](#4. 融合数仓)

[2.3 思考题](#2.3 思考题)


2. 大数据场景化解决方案

本节介绍了大数据在实际应用场景中的解决方案,包括离线批处理,实时检索,实时流处理和融合数仓。并讲解了他们的特点及架构流程。

2.1 大数据应用

大数据已经融入到社会生产和生活的方方面面,其巨大价值日益得到显现。

|--------|----------------------|
| 领域 | 大数据的应用 |
| 金融 | 高频交易,市场舆情分析,信贷风险分析等。 |
| 物流 | 智慧物流,包括成本控制、风险管理等。 |
| 医疗 | 流行病预测,智慧医疗,健康管理等。 |
| 互联网 | 用户画像,个性化推荐,广告投放等 |
| 城市 | 智慧交通,城市规划,智能安防等。 |

2.2 场景化解决方案的分类

在面对不同的场景时,会使用不同的大数据组件去解决处理,主要有如下大数据场景化解决方案。

1. 离线 批处理

1)概念

  • 离线批处理,是指对海量历史数据进行处理和分析,生成结果数据,供下一步数据应用使用的过程。

  • 离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业,Spark作业或者HQL作业实现。

2)特点

  • 处理时间要求不高

  • 处理数据量巨大

  • 处理数据格式多样

  • 占用计算存储资源多

3)流程图

2. 实时检索

1)概念

实时检索简而言之就是对系统内的一些信息根据关键词进行即时、快速搜索,即搜即得的效果。强调的是实时低延迟

2)核心诉求

  • 检索性能要求高

基于主键的检索需要在1秒内响应,基于非主键的检索需要在3秒内响应,不承担复杂查询和统计类查询

  • 高并发查询

通常有大于100的并发查询

  • 数据量大

PB级数据量,集群规模在1000节点以上。对图数据库的场景,点个数在10亿以上,边个数在100亿以上。

  • 支持结构化和非结构化

需要同时保存结构化数据和非结构化数据,经常用来对图片等小文件进行检索。

  • 高效的数据加载

数据加载要求高,每小时可以加载TB级数据

  • 支持圈检索

支持检索图数据,支持图标准查询接口

3)流程图

3. 实时流处理

1) 概念

实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过Structured Streaming 或者Flink任务实现。

2)核心诉求

  • 处理速度快

端到端处理需要达到秒级,流处理平台负责的数据采集和数据处理要在1秒内完成。如果风控项目要求单条数据处理时间达到秒级,单节点TPS大于2000.

  • 吞吐量高

需要在短时内接收并处理大量数据记录,吞吐量需要达到数十兆/秒/节点

  • 抗震性强

为应对数据源端业务数据产生速度会突然出现峰值的情形,需要提供数据缓存机制。

  • 可靠性高

网络、软件等故障发生时,需保证每条数据不丢失,数据处理不遗漏、不重复

  • 水平扩展

当系统处理能力出现瓶颈后,可通过节点的水平扩展提升处理性能。

  • 多数据源支持

支持网络流、文件、数据库表、IOT等格式的数据源。对于文件数据源,可以处理增量数据的加载。

  • 数据权限和资源隔离

消息处理、流处理需要有数据权限控制,不同的作业、用户可以访问、处理不同的消息和数据。多种流处理应用之间要进行资源控制和隔离,防止发生资源争抢。

  • 第三方工具对接

支持与第三方规则引擎、决策系统、实时推荐系统等对接。

3)流程图

4. 融合 数仓

在数据慢慢呈现数据处理量大、数据处理时时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。

随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

流程图:

2.3 思考题

  • 大数据可以用于流行病预测。(对)

  • 离线批处理通常通过MR作业、Spark作业或者HQL作业实现。(对)

  • 实时流处理对时延的要求不高。(错)

相关推荐
云上艺旅17 小时前
K8S学习之基础七十四:部署在线书店bookinfo
学习·云原生·容器·kubernetes
你觉得20517 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
A旧城以西18 小时前
数据结构(JAVA)单向,双向链表
java·开发语言·数据结构·学习·链表·intellij-idea·idea
无所谓จุ๊บ18 小时前
VTK知识学习(50)- 交互与Widget(一)
学习·vtk
FAREWELL0007518 小时前
C#核心学习(七)面向对象--封装(6)C#中的拓展方法与运算符重载: 让代码更“聪明”的魔法
学习·c#·面向对象·运算符重载·oop·拓展方法
吴梓穆18 小时前
UE5学习笔记 FPS游戏制作38 继承标准UI
笔记·学习·ue5
Three~stone19 小时前
MySQL学习集--DDL
数据库·sql·学习
齐尹秦19 小时前
HTML 音频(Audio)学习笔记
学习
V---scwantop---信19 小时前
英文字体:大胆都市街头Y2Y涂鸦风格品牌海报专辑封面服装字体 Chrome TM – Graffiti Font
笔记·字体
瞌睡不来19 小时前
(学习总结32)Linux 基础 IO
linux·学习·io