📝 前言
在完成传统数据库基础知识的学习后,我们不可避免地会遇到一系列"新生"的数据概念:数据仓库、数据湖、数据中台、湖仓一体......这些名词在当今的企业数字化转型浪潮中频繁出现,也成为了系统架构设计师考试的重点内容。
根据2025年考试大纲的最新变化,大数据技术模块的权重已提升至15-20分,考查趋势从早期的Hadoop生态技术细节,转向强调数据湖仓一体化架构、数据要素市场化配置以及国产化技术栈。对于架构师而言,理解这些新兴数据技术的定位、差异和协同关系,已经成为必备的能力。
本文将系统梳理数据仓库、数据湖、数据中台、湖仓一体、数据编织、数据网格等新兴数据概念,厘清它们之间的区别与联系,并结合历年真题和实践案例,帮助你在复习中建立起完整的数据知识体系。
一、数据仓库------数据管理的基础设施
1.1 什么是数据仓库?
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。这是数据仓库的经典定义,也是考试中的高频考点。
数据仓库的四大特征:
| 特征 | 含义 |
|---|---|
| 面向主题 | 围绕业务主题组织,如销售、客户、产品,而非日常操作事务 |
| 集成 | 从多个异构数据源抽取、清洗、转换,形成统一的数据视图 |
| 非易失 | 数据主要是查询操作,不进行频繁的修改和删除 |
| 随时间变化 | 保存历史数据,反映数据随时间的变化趋势 |
1.2 数据仓库的分层架构
传统数据仓库采用分层模型,每一层承担不同的数据加工任务:
| 层级 | 全称 | 主要作用 | 数据处理特点 |
|---|---|---|---|
| ODS层 | 操作数据存储层 | 原始数据采集与暂存 | 全量/增量同步,保持与源系统一致 |
| DWD层 | 数据明细层 | 明细数据清洗与加工 | 数据去重、规范化、保留全量明细 |
| DWS层 | 数据汇总层 | 主题数据汇总/建模 | 按主题进行聚合、轻度汇总 |
| ADS层 | 应用数据服务层 | 面向业务应用的数据服务 | 按需加工,支撑BI报表和API服务 |
1.3 数据仓库的适用场景
数据仓库适合需要历史数据分析、跨部门数据整合的场景:
-
企业经营报表和KPI监控
-
销售业绩仪表盘
-
客户生命周期价值分析
-
财务报表和合规报告
二、数据湖------海量原始数据的存储库
2.1 什么是数据湖?
数据湖 是存储从各种源系统收集的信息副本的存储库,以其本机格式(结构化、半结构化、非结构化)供ML解决方案处理、备份和归档、大数据分析等。与数据仓库不同,数据湖强调先存储、后处理,即Schema-on-Read模式。
2.2 数据湖的核心特征
| 特征 | 说明 |
|---|---|
| 存储原始数据 | 无需事先定义Schema,保持数据的原始形态 |
| 支持多种数据类型 | 可存储结构化、半结构化(JSON、XML)、非结构化(图片、视频、日志)数据 |
| 低成本存储 | 通常采用廉价的对象存储或分布式文件系统(如HDFS) |
| 灵活的分析模式 | 支持探索式分析、机器学习、数据挖掘等多样化工作负载 |
2.3 数据湖的典型架构
数据湖的数据流转通常包括:
-
数据摄入:从各种源系统持续采集数据
-
原始存储:数据进入着陆区,保持原始形态
-
元数据标记:为数据分配唯一标识和元数据标签,便于查询
-
数据处理:清洗、去重、格式化后移入可信区域
-
数据服务:供下游报表、分析和数据仓库使用
2.4 数据湖的局限性
尽管数据湖解决了海量原始数据的存储问题,但也带来了新的挑战:
-
数据沼泽:缺乏治理导致数据难以发现和利用
-
性能问题:Schema-on-Read模式在查询时需要额外处理
-
ACID事务缺失:传统数据湖不支持事务性操作
三、数据中台------业务能力的共享服务平台
3.1 什么是数据中台?
数据中台是一个面向业务的共享服务平台,核心在于将企业的数据能力进行业务层面的抽象和复用,支持前台应用灵活创新。如果说数据仓库是"管数据"的技术平台,那么数据中台就是"管业务能力"的业务平台。
3.2 数据仓库与数据中台的本质区别
这是考试中极易混淆的概念,务必分清:
| 维度 | 数据仓库 | 数据中台 |
|---|---|---|
| 架构定位 | 技术平台,支持数据存储与分析 | 业务平台,支持能力复用和业务创新 |
| 服务对象 | 数据分析师、数据工程师 | 业务部门、前台应用 |
| 数据粒度 | 明细数据、历史数据 | 主题数据、业务对象 |
| 目标 | 支持报表、BI分析、决策支持 | 支撑业务快速开发、能力共享 |
| 价值实现 | 数据规范、统一视角、决策支持 | 业务解耦、敏捷响应、降低重复开发成本 |
3.3 数据中台的核心价值
根据数据中台架构师岗位的考点总结,数据中台的核心价值可以概括为:
-
数据共享复用:打破数据孤岛,建立统一的数据标准和口径,支撑跨业务线复用
-
支撑业务快速创新:将数据能力封装为服务,前台应用可快速调用,缩短开发周期
-
降低重复开发成本:避免各业务线重复建设数据能力
-
数据资产化管理:实现数据资产的统一治理、运维和价值度量
3.4 数据中台的核心组件
数据中台通常包含以下核心组件:
| 组件 | 功能 | 关键技术 |
|---|---|---|
| 数据采集 | 从各业务系统采集数据 | Flume、Kafka、DataX、Sqoop |
| 数据存储 | 分层存储各类数据 | HDFS、HBase、ClickHouse |
| 数据计算 | 批处理和流计算 | Spark、Flink、MapReduce |
| 数据治理 | 数据标准、质量、安全 | Atlas、DataHub、Amabri |
| 数据服务 | 封装数据能力为服务 | API网关、REST API、数据订阅 |
四、湖仓一体------数据湖与数据仓库的融合
4.1 什么是湖仓一体?
湖仓一体是一种新型开放数据管理架构,融合了数据湖的灵活性、成本效益与规模优势,以及数据仓库的数据管理与ACID事务特性,支持对全部数据执行商业智能(BI)与机器学习(ML)。
4.2 为什么需要湖仓一体?
传统"数据湖+数据仓库"双库分立模式存在诸多问题:
-
架构孤岛:两套系统独立,数据需要ETL同步,协同效率低
-
数据冗余:同一份数据在湖和仓中重复存储
-
实时性差:数据从湖到仓的转换存在延迟
-
开发成本高:需要掌握两套技术栈
4.3 湖仓一体的核心优势
以齐鲁银行的湖仓一体实践为例,取得了显著成效:
| 优势维度 | 具体成效 |
|---|---|
| 成本降低 | 存储成本直降约50%,计算成本减少约65% |
| 效率提升 | 数据处理从小时级提升至分钟级,报表从5天缩短至6小时 |
| 实时分析 | 风险监控从1-2小时缩短至1分钟内 |
| 数据质量 | 新建系统数据落标率从70%提升至90% |
4.4 湖仓一体的技术架构
湖仓一体架构的核心创新在于:
-
统一存储:数据湖与数据仓库共享同一存储层(如HDFS、S3)
-
计算分离:计算资源与存储资源解耦,可独立扩展
-
元数据互通:湖和仓共享元数据,实现数据资产的统一管理
-
批流融合:同时支持批处理和流处理,实现Lambda/Kappa架构的统一
4.5 考试热点:Lambda架构与Kappa架构
Lambda架构和Kappa架构是处理大规模数据的经典架构模式,也是2024年案例分析题的考查重点。
Lambda架构将数据处理分为三层:
| 层级 | 作用 | 技术示例 |
|---|---|---|
| 批处理层(Batch Layer) | 处理大规模批量数据,生成批处理视图 | Hadoop MapReduce、Spark |
| 速度层(Speed Layer) | 处理实时数据流,生成实时视图 | Storm、Spark Streaming、Flink |
| 服务层(Serving Layer) | 合并批处理和实时视图,提供统一查询接口 | 合并查询引擎 |
Kappa架构简化了Lambda架构:
-
只使用流处理引擎处理数据流
-
不区分批处理和实时处理
-
通过流计算一条数据链路计算并产生视图
-
架构更简单,但在处理大规模历史数据时可能性能不足
典型考题(2024年11月案例分析):
某奥运转播平台需要处理千万级实时数据(当日概览)和海量历史数据(赛事回顾)。批处理层处理历史数据,速度层处理实时数据,服务层合并结果。该系统基于( )架构搭建?
答案 :Lambda架构(因为需要同时处理批处理和实时数据)
五、数据编织与数据网格------新一代数据架构
随着数据环境的日益复杂,Gartner等机构提出了更先进的数据管理理念。
5.1 数据编织(Data Fabric)
数据编织是一套松散耦合的分布式服务集合,能够以恰当形态在适当时机和地点,从事务性与分析性异构数据源中提供准确数据,覆盖任意云端与本地平台。
数据编织的核心特征:
| 特征 | 说明 |
|---|---|
| 数据节点网络 | 由分布在各处的数据平台、数据库、物联网设备等节点构成 |
| 虚拟化集成 | 不需要将数据移动到集中位置,通过虚拟层实现数据整合 |
| 智能元数据管理 | 利用AI技术自动检测、分析、收集和激活元数据 |
| 主动数据治理 | 贯穿全流程的数据安全与治理策略 |
| 数据可发现性 | 通过数据目录或数据市场实现资产发掘 |
数据编织与数据虚拟化的关系:数据虚拟化是数据编织的核心技术之一,用于创建数据抽象层,无需移动数据即可集成多源数据。
5.2 数据网格(Data Mesh)
数据网格是一种分布式数据架构,由Thoughtworks提出,其核心原则包括:
-
领域自治:按业务领域划分数据所有权,由领域专家负责
-
数据即产品:每个数据域被视为一个产品,用户是客户
-
自助数据平台:提供自助式基础设施,支持数据产品的创建和使用
-
联合计算治理:标准化跨域的数据规则和定义
5.3 三种架构的定位与关系
这是考试中可能出现的进阶考点,需要理解三者各自的定位:
| 概念 | 定位 | 变革程度 |
|---|---|---|
| 湖仓一体 | 新技术平台,可具体实现 | 技术演进 |
| 数据编织 | 新架构方法,包容现有资产 | 渐进式演进 |
| 数据网格 | 新运营模式与文化变革 | 革命性转型 |
三者协同使用的路径:
-
通过采用湖仓一体升级传统数据平台
-
通过数据编织应对数据复杂性(多数据源、多云环境)
-
利用数据网格实现业务领域的文化转型
实务建议:对于大多数企业,应从湖仓一体入手解决技术层面的数据整合问题,再逐步引入数据编织理念,最后根据组织成熟度考虑数据网格转型。
六、大数据技术体系
6.1 大数据的基本特征
大数据通常用"5V"来概括其特征:
| 特征 | 说明 |
|---|---|
| 规模性(Volume) | PB级甚至EB级的数据处理能力要求 |
| 多样性(Variety) | 结构化、半结构化、非结构化、时序数据等多种类型 |
| 高速性(Velocity) | 数据产生和处理的实时性要求 |
| 价值性(Value) | 从海量数据中挖掘价值的密度低但价值高 |
| 真实性(Veracity) | 数据的质量和可信度要求 |
6.2 大数据技术架构
2025年大数据技术架构的关键要点:
基础平台层:
-
存储引擎:分布式文件系统(HDFS替代方案)、对象存储(S3标准)
-
计算框架:批处理(Spark)、流计算(Flink信创版本)
数据治理层:
-
元数据管理:符合DCMM国家标准
-
数据血缘:满足《数据安全法》溯源要求
-
质量管控:GB/T 36344-2018实施
应用服务层:
-
实时数仓:HTAP架构实践
-
AI赋能:MLOps流水线集成
-
隐私计算:联邦学习平台建设
6.3 国产化大数据技术栈
根据考试大纲变化,国产化技术栈是2025年的新考点:
-
国产分布式数据库:OceanBase、TiDB
-
隐私计算平台
-
信创适配要求:大数据平台国产化率≥60%
6.4 实践案例:上海证券的数据中台建设
上海证券基于SelectDB构建的数据中台实践:
面临的挑战:
-
架构孤岛化:多套独立数据采集、调度工具,协同效率低
-
标准体系缺失:缺乏统一数据标准规范
-
服务能力断层:业务部门无法自助获取数据
解决方案:
-
引入SelectDB作为核心实时分析引擎
-
实现湖仓一体与流批一体
-
替换原有Elasticsearch组件
取得的成效:
-
写入性能提升4倍
-
支撑1000+ QPS高并发访问
-
关键决策响应延迟200ms
-
开发效率提升50%
-
运维成本大幅降低
七、历年考点归纳与真题解析
7.1 数据仓库定义题
例题1(2020年5月系统规划与管理师真题):( )是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。
A. 大数据
B. 云计算
C. 数据仓库
D. 智慧城市
解析 :本题考查数据仓库的经典定义。题干描述正是数据仓库的核心特征,正确答案是 C。
7.2 数据仓库与数据中台区分题
例题2:以下关于数据仓库与数据中台的说法,正确的是( )。
A. 数据仓库是业务平台,数据中台是技术平台
B. 数据仓库面向业务部门,数据中台面向数据分析师
C. 数据仓库关注底层数据准确性,数据中台关注业务能力复用
D. 数据仓库与数据中台是替代关系
解析 :数据仓库是技术平台,关注数据准确性和一致性;数据中台是业务平台,关注能力复用和业务创新。两者是互补而非替代关系。正确答案是 C。
7.3 湖仓一体特点题
例题3:湖仓一体架构的核心优势不包括( )。
A. 融合数据湖的灵活性与数据仓库的事务能力
B. 存储成本降低
C. 必须将所有数据迁移到集中存储
D. 批流融合处理
解析 :湖仓一体强调统一存储而非集中迁移,支持数据在原有位置被访问。C选项描述错误。正确答案是 C。
7.4 Lambda/Kappa架构题
例题4(2024年11月案例分析):某平台需要同时处理历史数据批处理和实时数据流处理,应选择哪种架构?
A. Lambda架构
B. Kappa架构
C. 数据编织
D. 数据网格
解析 :Lambda架构同时包含批处理层和速度层,适用于既有批处理需求又有实时处理需求的场景。正确答案是 A。
7.5 数据中台建设题
例题5:以下关于数据中台建设原则的说法,错误的是( )。
A. 业务驱动优先于技术先行
B. 强调数据资产化管理
C. 数据中台应一次性建成大而全的平台
D. 安全合规是重要考量因素
解析 :数据中台建设应采用迭代演进的方式,根据业务需求逐步构建,而非一次性建成大而全的平台。正确答案是 C。
八、复习建议与知识体系
8.1 知识体系梳理
数据库补充知识复习主线:
第一层:基础概念
├── 数据仓库(面向主题、集成、非易失、时变)
├── 数据湖(原始数据、Schema-on-Read)
└── 数据中台(能力复用、业务服务)
第二层:融合架构
├── 湖仓一体(数据湖+数据仓库)
├── Lambda架构(批处理+速度层+服务层)
└── Kappa架构(纯流处理)
第三层:前沿架构
├── 数据编织(分布式、虚拟化、智能元数据)
└── 数据网格(领域自治、数据即产品)
第四层:实践能力
├── 大数据技术栈(Hadoop/Spark/Flink)
├── 数据治理(元数据、血缘、质量)
└── 国产化适配(信创、DCMM)
8.2 记忆口诀
数据仓库特征口诀:
面向主题来组织,集成数据要统一
非易失性不修改,随时间变化存历史
湖仓一体口诀:
数据湖存原始态,数据仓库重治理
湖仓一体融合好,存储成本降一半
批流一体效率高,实时分析秒级达
中台与数仓区别口诀:
数仓管数据,中台管业务
数仓服务分析师,中台服务业务线
数仓重准确,中台重复用
两者互补非替代,协同建设价值大
Lambda/Kappa口诀:
Lambda三层齐,批处实时都兼容
Kappa只流式,架构简单易维护
需要历史批处理,Lambda是首选
8.3 高频考点总结
| 考点 | 考查形式 | 难度 | 频率 |
|---|---|---|---|
| 数据仓库四大特征 | 选择题 | 低 | ⭐⭐⭐⭐⭐ |
| 数据仓库与数据中台区别 | 选择题/简答 | 中 | ⭐⭐⭐⭐ |
| 湖仓一体优势 | 选择题/案例分析 | 中 | ⭐⭐⭐⭐ |
| Lambda/Kappa架构选择 | 案例分析 | 中 | ⭐⭐⭐⭐ |
| 大数据技术栈组成 | 选择题 | 低 | ⭐⭐⭐ |
| 数据编织/网格概念 | 选择题 | 高 | ⭐⭐ |
结语
从数据仓库到数据湖,从数据中台到湖仓一体,再到数据编织和数据网格,数据管理技术的演进从未停止。作为系统架构设计师,我们不仅需要理解这些概念的定义,更需要洞察它们背后的技术逻辑和业务价值------数据仓库追求准确性和一致性,数据中台追求复用性和敏捷性,湖仓一体追求融合与效率,数据编织追求智能与自动化,数据网格追求民主化与规模化。
每一类技术都有其适用的场景和边界。在实际工作中,我们应根据企业的业务需求、数据规模、组织成熟度等因素,选择合适的技术路径。对于考试而言,理解这些核心概念的定义、特征、区别与联系,是应对各类题目的基础。
希望本文的梳理能帮助你在备考中建立起完整的新兴数据知识体系,顺利通过考试。下一章,我们将进入计算机网络基础知识的学习,敬请期待!