19. 大数据-技术生态

文章目录

前言
[一、核心组件与技术框架定位](#一、核心组件与技术框架定位)
- [1. 基础生态与存储层](#1. 基础生态与存储层)
- [2. 数据采集与同步层](#2. 数据采集与同步层)
- [3. 数据计算与查询层](#3. 数据计算与查询层)
- [4. 实时OLAP分析层](#4. 实时OLAP分析层)
[二、架构选型与配合使用指南](#二、架构选型与配合使用指南)
- [1. 经典"湖仓一体"架构](#1. 经典“湖仓一体”架构)
- [2. 离线批处理与历史数仓场景](#2. 离线批处理与历史数仓场景)
- [3. 极简实时分析与大屏监控场景](#3. 极简实时分析与大屏监控场景)
- [4. 高并发实时点查与状态存储场景](#4. 高并发实时点查与状态存储场景)
- [5. 总结建议](#5. 总结建议)

前言

大数据（Big Data）‌

大数据（Big Data）是指无法用传统数据处理工具处理的大规模数据集合，具有数据量大、数据类型多、数据生成速度快、数据价值密度低等特点。

大数据的处理技术包括分布式存储和计算、数据清洗和转换、数据分析和可视化等。

分布式存储和计算 是通过多台计算机协同工作来处理大规模数据，如Hadoop、Spark等；

数据清洗和转换 是对大数据进行预处理，如数据去重、数据转换等；

数据分析和可视化 是对大数据进行分析和展示，如机器学习、数据可视化等。

大数据的设计和实现需要考虑数据源、数据质量、性能、数据安全等因素。

一、核心组件与技术框架定位

1. 基础生态与存储层

Hadoop生态：大数据的"地基"，提供提供分布式存储（HDFS）、计算资源调度（YARN）、分布式计算框架(MapReduce) 的基础设施。
HBase：构建在HDFS之上的分布式NoSQL数据库，专为海量数据的随机、低延迟实时读写而设计。
Hudi：数据湖存储格式，为数据湖提供ACID事务、数据版本回溯和增量处理能力，解决传统数据湖难以更新的问题。

2. 数据采集与同步层

Flume：分布式日志收集、聚合和传输系统，适合将海量日志实时移动到HDFS或HBase中。
DataX：异构数据源离线同步工具，采用插件化架构，高效实现MySQL、HDFS、Hive等之间的批量数据同步。
DS (DolphinScheduler)：分布式可视化工作流任务调度平台，用于管理复杂的大数据任务依赖与定时调度。

3. 数据计算与查询层

Spark：基于内存的分布式计算框架，性能远超传统MapReduce，是离线ETL、复杂批量计算和机器学习的首选。
Flink：高性能分布式流处理框架，支持真正的流批一体和Exactly-Once语义，是实时计算、实时数仓的核心引擎。
Hive：基于Hadoop的数据仓库工具，将SQL转换为MapReduce/Spark任务，适合大规模历史数据的离线分析。

4. 实时OLAP分析层

Doris：高性能MPP架构的实时分析数据库，支持高并发、亚秒级响应，兼容MySQL协议，适合多维报表和即席查询。
ClickHouse：以极致查询性能著称的列式存储数据库，在单表海量数据分析和日志检索场景下表现卓越，但并发和多表Join能力相对较弱。

二、架构选型与配合使用指南

现代企业大数据架构正从传统的Lambda架构向湖仓一体（Lakehouse）和流批一体演进。以下是主流场景的选型与配合方案：

1. 经典"湖仓一体"架构

90%中大型企业的首选

架构组合：Kafka + Flink + Spark + Hudi/Iceberg + Doris。
配合方式：通过Flink CDC或DataX将业务数据实时同步至Kafka；Flink进行实时流计算并写入Hudi（数据湖）；Spark负责离线ETL与复杂机器学习任务；最终将加工好的高价值数据导入Doris，支撑前端高并发的BI报表和即席查询。
优势：统一存储、批流一体，避免了多套系统的数据冗余和口径不一致。

2. 离线批处理与历史数仓场景

架构组合：DataX/Flume + HDFS + Hive/Spark + DolphinScheduler。
配合方式：使用DataX或Flume将数据批量采集到HDFS，通过DolphinScheduler调度Hive或Spark任务进行T+1的数据清洗与聚合分析。
适用：对实时性要求不高、数据量极大的历史报表生成和离线数据挖掘。

3. 极简实时分析与大屏监控场景

架构组合：Kafka + Flink + ClickHouse/Doris。
配合方式：如果业务以实时日志分析、埋点监控为主，且极少进行复杂的多表关联，可直接将Kafka中的数据通过Flink清洗后写入ClickHouse；若需要高并发和复杂Join，则写入Doris。
适用：实时风控、实时大屏、用户行为秒级监控。

4. 高并发实时点查与状态存储场景

架构组合：Flink + HBase。
配合方式：Flink处理实时数据流，将需要频繁更新或毫秒级点查的状态数据（如用户画像、实时库存）写入HBase，对外提供高QPS的API查询服务。

5. 总结建议

在技术选型时，应以业务需求为导向。对于大多数希望兼顾实时与离线、降低运维复杂度的企业，推荐采用 Spark（离线）+ Flink（实时）+ Hudi（湖存储）+ Doris（OLAP查询） 的组合，并使用 DolphinScheduler 进行统一的任务调度，从而构建一个高效、统一的现代大数据平台。