19. 大数据-技术生态

文章目录

  • 前言
  • [一、 核心组件与技术框架定位](#一、 核心组件与技术框架定位)
    • [1. 基础生态与存储层](#1. 基础生态与存储层)
    • [2. 数据采集与同步层](#2. 数据采集与同步层)
    • [3. 数据计算与查询层](#3. 数据计算与查询层)
    • [4. 实时OLAP分析层](#4. 实时OLAP分析层)
  • [二、 架构选型与配合使用指南](#二、 架构选型与配合使用指南)
    • [1. 经典"湖仓一体"架构](#1. 经典“湖仓一体”架构)
    • [2. 离线批处理与历史数仓场景](#2. 离线批处理与历史数仓场景)
    • [3. 极简实时分析与大屏监控场景](#3. 极简实时分析与大屏监控场景)
    • [4. 高并发实时点查与状态存储场景](#4. 高并发实时点查与状态存储场景)
    • [5. 总结建议](#5. 总结建议)

前言

大数据(Big Data)

大数据(Big Data)是指无法用传统数据处理工具处理的大规模数据集合,具有数据量大、数据类型多、数据生成速度快、数据价值密度低等特点。

大数据的处理技术包括分布式存储和计算、数据清洗和转换、数据分析和可视化等。

分布式存储和计算 是通过多台计算机协同工作来处理大规模数据,如Hadoop、Spark等;

数据清洗和转换 是对大数据进行预处理,如数据去重、数据转换等;

数据分析和可视化 是对大数据进行分析和展示,如机器学习、数据可视化等。

大数据的设计和实现需要考虑数据源、数据质量、性能、数据安全等因素。


一、 核心组件与技术框架定位

1. 基础生态与存储层

  • Hadoop生态:大数据的"地基",提供提供分布式存储(HDFS)、计算资源调度(YARN)、 分布式计算框架(MapReduce) 的基础设施。
  • HBase:构建在HDFS之上的分布式NoSQL数据库,专为海量数据的随机、低延迟实时读写而设计。
  • Hudi:数据湖存储格式,为数据湖提供ACID事务、数据版本回溯和增量处理能力,解决传统数据湖难以更新的问题。

2. 数据采集与同步层

  • Flume:分布式日志收集、聚合和传输系统,适合将海量日志实时移动到HDFS或HBase中。
  • DataX:异构数据源离线同步工具,采用插件化架构,高效实现MySQL、HDFS、Hive等之间的批量数据同步。
  • DS (DolphinScheduler):分布式可视化工作流任务调度平台,用于管理复杂的大数据任务依赖与定时调度。

3. 数据计算与查询层

  • Spark:基于内存的分布式计算框架,性能远超传统MapReduce,是离线ETL、复杂批量计算和机器学习的首选。
  • Flink:高性能分布式流处理框架,支持真正的流批一体和Exactly-Once语义,是实时计算、实时数仓的核心引擎。
  • Hive:基于Hadoop的数据仓库工具,将SQL转换为MapReduce/Spark任务,适合大规模历史数据的离线分析。

4. 实时OLAP分析层

  • Doris:高性能MPP架构的实时分析数据库,支持高并发、亚秒级响应,兼容MySQL协议,适合多维报表和即席查询。
  • ClickHouse:以极致查询性能著称的列式存储数据库,在单表海量数据分析和日志检索场景下表现卓越,但并发和多表Join能力相对较弱。

二、 架构选型与配合使用指南

现代企业大数据架构正从传统的Lambda架构向湖仓一体(Lakehouse)流批一体演进。以下是主流场景的选型与配合方案:

1. 经典"湖仓一体"架构

90%中大型企业的首选

  • 架构组合:Kafka + Flink + Spark + Hudi/Iceberg + Doris。
  • 配合方式:通过Flink CDC或DataX将业务数据实时同步至Kafka;Flink进行实时流计算并写入Hudi(数据湖);Spark负责离线ETL与复杂机器学习任务;最终将加工好的高价值数据导入Doris,支撑前端高并发的BI报表和即席查询。
  • 优势:统一存储、批流一体,避免了多套系统的数据冗余和口径不一致。

2. 离线批处理与历史数仓场景

  • 架构组合:DataX/Flume + HDFS + Hive/Spark + DolphinScheduler。
  • 配合方式:使用DataX或Flume将数据批量采集到HDFS,通过DolphinScheduler调度Hive或Spark任务进行T+1的数据清洗与聚合分析。
  • 适用:对实时性要求不高、数据量极大的历史报表生成和离线数据挖掘。

3. 极简实时分析与大屏监控场景

  • 架构组合:Kafka + Flink + ClickHouse/Doris。
  • 配合方式:如果业务以实时日志分析、埋点监控为主,且极少进行复杂的多表关联,可直接将Kafka中的数据通过Flink清洗后写入ClickHouse;若需要高并发和复杂Join,则写入Doris。
  • 适用:实时风控、实时大屏、用户行为秒级监控。

4. 高并发实时点查与状态存储场景

  • 架构组合:Flink + HBase。
  • 配合方式:Flink处理实时数据流,将需要频繁更新或毫秒级点查的状态数据(如用户画像、实时库存)写入HBase,对外提供高QPS的API查询服务。

5. 总结建议

在技术选型时,应以业务需求为导向。对于大多数希望兼顾实时与离线、降低运维复杂度的企业,推荐采用 Spark(离线)+ Flink(实时)+ Hudi(湖存储)+ Doris(OLAP查询) 的组合,并使用 DolphinScheduler 进行统一的任务调度,从而构建一个高效、统一的现代大数据平台。


相关推荐
阿坤带你走近大数据1 小时前
实时数据开发的一些实战经验
大数据
无忧智库1 小时前
[特殊字符]【万字深度解析】一站式全域数据资产运营平台解决方案——企业数字化转型的数据治理终极答案(PPT)
大数据·人工智能
AI智图坊2 小时前
亚马逊多站点Listing视觉制作的效率瓶颈与AI解决方案:GPT-Image-2与Nano Banana Pro双模型分析
大数据·前端·数据库·人工智能·自动化·aigc
王小王-1232 小时前
基于机器学习的垃圾短信检测研究
大数据·人工智能·机器学习·垃圾短信检测·垃圾短信识别
是一个Bug2 小时前
Agent Skills 是什么?跟 MCP、Workflow、Command、Prompt 有什么关系?
大数据·人工智能·prompt
wanghao6664552 小时前
精益方法论:用更少的资源创造更大的价值
大数据·前端·数据库·敏捷开发
zandy10112 小时前
体验家 XMPlus 智能客群分群引擎:从 RFM 模型到多维行为画像的动态标签体系设计
大数据·前端·人工智能
Legend NO242 小时前
从数据中台到 Data Fabric:数据价值落地,终究要回归本质(二)
大数据·运维·fabric
徐寿春2 小时前
什么是 Elasticsearch 倒排索引
大数据·elasticsearch·搜索引擎