# 大规模数据平台架构演进

大规模数据平台架构演进：从 0 到 PB 级的成长之路

一、演进历程回顾

1.1 我们的数据增长曲线

年份	数据量	日增量	表数量	用户数	架构
2019	500GB	5GB	50+	5	单机 MySQL
2020	10TB	50GB	200+	15	Hadoop + Hive
2021	100TB	200GB	500+	50	Hadoop + Spark + Kafka
2022	500TB	500GB	1000+	200	湖仓一体 + 实时
2023	1.2PB	800GB	2000+	500	数据网格 + 云原生
2024	2.5PB+	1.2TB	3000+	1000	Data Mesh + AI

1.2 每个阶段的痛点

阶段 1：单机时代（2019）

查询慢：复杂查询 30 分钟+
容量瓶颈：磁盘频繁告警
单点故障：宕机即停摆

典型事件： 2019 年双 11，MySQL 被打挂，恢复 2 小时，损失 50 万+

阶段 2：Hadoop 时代（2020-2021）

开发门槛高：需要会 Java/Scala
运维复杂：NameNode 单点
实时性差：T+1 模式
小文件问题：NameNode 内存爆炸

典型事件： 2021 年 618，全表扫描作业导致所有任务延迟 6 小时

阶段 3：湖仓一体时代（2022-2023）

团队瓶颈：数据团队成为需求瓶颈
数据孤岛：各业务线数据不通
质量参差：70% 问题源于需求理解偏差

二、架构演进核心原则

2.1 演进原则

渐进式演进：每次只解决当前最痛的点
业务驱动：不为"先进"而演进
可回滚设计：任何变更都要有回滚方案
自动化优先：能自动化的不人工

2.2 架构评估维度

维度	权重	说明
业务响应速度	25%	需求交付周期
系统稳定性	20%	SLA 达成率
可扩展性	20%	数据量/用户量增长能力
成本效率	15%	单位数据成本
运维复杂度	10%	人力投入
技术前瞻性	10%	3-5 年不落伍

三、大规模数据平台架构设计

3.1 整体架构（2024 版）

复制代码

数据应用层：BI 报表 | 数据服务 | AI/ML | 实时大屏
                    ▲
数据服务层：统一数据服务网关（查询/订阅/推送/导出）
                    ▲
数据计算层：Spark(离线) | Flink(实时) | Trino(交互)
                    ▲
数据存储层：Iceberg(湖) | StarRocks(仓) | Kafka(消息)
                    ▲
数据采集层：日志采集 | 数据库 CDC | API 采集 | 文件采集
                    ▲
数据源层：业务数据库 | 应用日志 | 第三方 API | IoT 设备

3.2 关键技术选型

数据湖格式：Iceberg

Flink 实时写入是刚需
隐藏分区对历史数据重构关键

OLAP 引擎：StarRocks

实时更新能力（支持主键模型）
Join 性能优秀

实时计算：Flink

毫秒级延迟
完善的状态管理

3.3 分层存储策略

层级	存储介质	引擎	占比	成本
热数据（7 天）	SSD+ 内存	StarRocks	5%	$30K
温数据（7-90 天）	HDD	Iceberg	25%	$20K
冷数据（90 天+）	对象存储	Iceberg	70%	$10K

成本对比： 全 SSD $500K/月 vs 分层存储$ 120K/月（节省 76%）

四、稳定性保障体系

4.1 监控指标分层

L1 基础设施：CPU、内存、磁盘、网络
L2 平台服务：HDFS、YARN、Kafka、Iceberg
L3 数据作业：任务成功率、延迟、新鲜度
L4 业务价值：查询响应、服务可用性、满意度

4.2 告警分级

级别	定义	响应时间	升级机制
P0	核心服务不可用	5 分钟	立即上报 CTO
P1	核心功能降级	15 分钟	30 分钟未解决上报 CTO
P2	非核心功能异常	1 小时	4 小时未解决上报总监
P3	轻微问题	4 小时	24 小时未解决上报经理

4.3 容灾设计

复制代码

主中心（北京）：计算 + 存储 + 服务
                    │
              异步复制 (<5 分钟)
                    │
备中心（上海）：热备集群 (50% 容量)

切换：P0 故障 5 分钟内自动切换

五、成本优化实践

5.1 成本构成

复制代码

月度总成本：$150,000
├── 存储：$60,000 (40%)
├── 计算：$50,000 (33%)
├── 网络：$20,000 (14%)
└── 运维：$20,000 (13%)

5.2 优化措施与效果

措施	优化前	优化后	节省
存储分层	全 HDD	SSD+HDD+ 对象存储	25%
计算弹性	固定 200 节点	50-500 弹性	29%
数据压缩	Snappy 2.5:1	ZSTD 3.8:1	34%
查询优化	全表扫描	分区裁剪	99%

六、踩坑记录

6.1 坑 1：盲目追求新技术

现象： 引入 ClickHouse，Join 能力弱

损失： 2 人月开发成本，最终弃用

教训： POC 验证至少 2 周，覆盖核心场景

6.2 坑 2：忽视数据质量

现象： 快速扩张，质量问题频发

损失： 业务自建数仓，重复建设

教训： 质量是生命线，宁慢勿错

6.3 坑 3：过度集中化

现象： 数据团队成为瓶颈

损失： 需求积压 3 个月，满意度 45%

教训： 适时转向数据网格，赋能业务

6.4 坑 4：监控盲区

现象： 凌晨故障 3 小时后发现

损失： 当天数据全部延迟

教训： 监控全覆盖，告警有升级

七、最佳实践总结

7.1 架构设计

分层解耦
渐进演进
可回滚设计
自动化优先

7.2 稳定性

监控全覆盖
告警分级
定期演练
多活容灾

7.3 成本优化

存储分层
计算弹性
数据压缩
查询优化

7.4 团队建设

专业化分工
持续学习
文档沉淀
轮岗机制

八、总结与展望

8.1 核心收获

指标	演进前	演进后	改善
响应速度	周级	小时级	10 倍 +
SLA	95%	99.9%	提升
单位成本	基准	-76%	大幅下降
满意度	45%	87%	翻倍

8.2 未来规划

实时化：延迟<1 分钟
智能化：AI 辅助开发
云原生：全面上云
服务化：数据 API 化

作者： 大数据开发团队
版本： v1.0
最后更新： 2024-04-08