基于 Spark 实现 COS 海量数据处理上周在组内分享了一下这个主题, 我觉得还是摘出一部分当文章输出出来 分享主要包括三个方面: 1. 项目背景 2.Spark 原理 3. Spark 实战 项目背景 主要是将海量日志进行多维度处理; 项目难点 1、数据量大(压缩包数量 6TB,60 亿条数据); 2、在 cos 上的目录不固定; 3、计算方式复杂,各种过滤、聚合、汇总逻辑; 4、处理时间有限,需在 4h 内完成; 基于上述的项目背景和难点, 最终决定采用 Spark,首先数据量大及计算方式复杂, 如果使用传统的服务方式, 需要大量的服务器资