数据仓库:规范

1.建表规范

1.1. 表命名规范

ods:ods_库名_表名_di(df) 存储贴源数据

dwd:dwd_业务体系_数据域_主题域_业务过程,存储业务过程的明细数据

dim: dim_实体, 如会员:dim_user,dim_product_info

dws:dws_业务体系_数据域_主题域_业务过程_简要描述,存储聚合集市数据

rpt:rpt_业务体系_数据域_主题域_业务过程_简要描述, 报表数据

di:di_业务体系_数据域_主题域_业务过程_简要描述,接口数据

to_:to_业务体系_数据域_主题域_业务过程_简要描述, 出仓数据

过渡临时数据一般会有tmp_开头,或者生成临时库,视具体情况而定

依赖频率会有 2h,1h,30min,15min等等

1.2.字段命名规范:

金额 amt

去重:cnt

计数:num

字段命名原则:业务过程_修饰词_度量_时间

1.3.字段类型:

bigint,decimal(18,4),string,timestamp(视情况而定,有时候统一处理为string),date

1.4.字段值

模型层度量的话,要填充0

维度和时间类的,不作强制约束

1.5.分区

命名:视情况而定,日期格式一般为:yyyymmdd或yyyy-mm-dd

2.开发规范

2.1.禁止 select *

视不同的技术平台,会有略差异

3.作业

3.1.每个作业对应一个目标表

3.2.对源表的要求:update_time,建立索引,及自动获取系统时间

4.其他

4.1.开发时,下游(未来)复用到一定程序,需要落模型

4.2.上下游依赖层次不可过多

4.3.一张ODS产生一个模型层,也不合理,多张表关系的数据,一般会出模型

相关推荐
小的~~25 分钟前
Flink-1.19.2报错及解决方案
大数据·flink
一个诺诺前行的后端程序员25 分钟前
flink闲谈
大数据·flink
杨超越luckly3 小时前
HTML应用指南:利用GET请求获取全国Apple Store 零售店位置信息
大数据·前端·arcgis·html·数据可视化·门店
涛思数据(TDengine)12 小时前
通过最严时序标准,再登产业图谱榜首,TDengine 时序数据库在可信数据库大会荣获双荣誉
大数据·数据库·时序数据库·tdengine·涛思数据
All In丶12 小时前
Tdengine 时序库年月日小时分组汇总问题
大数据·时序数据库·tdengine
涛思数据(TDengine)12 小时前
新客户 | TDengine 时序数据库是怎么在钢厂“撬动”PI 的?
大数据·运维·数据库·时序数据库·tdengine
Giser探索家12 小时前
什么是2米分辨率卫星影像数据?
大数据·人工智能·数码相机·算法·分类·云计算
芯希望12 小时前
芯伯乐XBL6019 60V/5A DC-DC升压芯片的优质选择
大数据·人工智能·物联网·dc-dc·电子元器件·电源管理ic·xblw芯伯乐
青云交16 小时前
Java 大视界 -- 基于 Java 的大数据分布式计算在气象灾害数值模拟与预警中的应用(388)
java·大数据·flink·分布式计算·预警系统·数值模拟·气象灾害