6.1.1.1 大数据方法论与实践指南-Spark/Flink 任务开发规范

6.1.1.1 Spark/Flink 任务开发规范

一、代码项目结构规范

良好的项目结构能提升代码可维护性、协作效率和部署可靠性。推荐采用 Maven/Gradle 多模块或统一目录分层方式组织代码。

推荐项目结构（Maven 示例）

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Bash spark-streaming-project/ ├── common/ # 公共工具类（配置、常量、序列化等） │ ├── src/main/scala/ │ │ └── com/example/common/ │ │ ├── Config.scala # 配置读取（如 Kafka、Spark 参数） │ │ ├── Constants.scala # 常量定义（Topic 名、路径等） │ │ └── Serializer.scala # 自定义序列化工具 │ └── pom.xml ├── core/ # 核心流处理逻辑 │ ├── src/main/scala/ │ │ └── com/example/core/ │ │ ├── streams/ # Streaming 处理类 │ │ │ ├── DataProcessor.scala # 数据处理主逻辑 │ │ │ └── MetricsCollector.scala # 监控指标上报 │ │ └── utils/ # 辅助工具类 │ │ ├── KafkaUtils.scala # Kafka 客户端封装 │ │ └── TimeUtils.scala # 时间处理工具 │ └── pom.xml ├── jobs/ # 任务入口和配置 │ ├── src/main/scala/ │ │ └── com/example/jobs/ │ │ ├── StreamingJob.scala # 主任务入口（解析参数、启动 StreamingContext） │ │ └── config/ # 任务配置文件（HOCON/YAML） │ │ └── application.conf │ └── pom.xml ├── test/ # 单元测试和集成测试 │ ├── src/test/scala/ │ │ └── com/example/test/ │ │ ├── DataProcessorTest.scala # 核心逻辑测试 │ │ └── KafkaIntegrationTest.scala # 数据源测试 │ └── pom.xml └── pom.xml # 父模块聚合 |

结构设计原则：

单一职责：每个类只负责一项功能

依赖注入：通过构造函数传入依赖，方便测试

分层调用：严格按照 source → processor → sink 单向调用，避免循环依赖

配置集中：所有可配置参数集中管理，避免硬编码

二、数据源配置规范【强制】

为了保障数据引用可追踪，以及涉及数据源（kafka，mysql、redis 等密码相关因素），程序在引入外部数据源的链接配置必须保存在配置中心（Configuration Center）中；

比如：

Kafka: boostserver、topic name、groupID

Mysql: Host、db

Redis: Host、db

针对 hive 表名/hdfs 文件路径，外部网站 url 等其它非保密资源，配置在 resource.xml 文件，或者参数传输，不允许在代码中硬编码

三、日志打印规范【强制】

参考《代码&项目管理规范》，日志必须打印到 kafka 中

四、分支管理、版本命名、打包规范【强制】

参考《代码&项目管理规范》

五、落地措施

使用 GitLab Merge Request 模板，标准化评审流程。

集成代码质量工具（如 SonarQube）至 CI/CD 流水线，通过代码扫描进行不符合规范提示。