二百八十、ClickHouse——用Kettle对DWD层补全的清洗数据进行记录

一、目的

在对DWD层清洗数据进行补全后,需要生成相应的补全记录,作为数据的标记

二、实施步骤

2.1 建表

复制代码
create  table  if not exists  hurys_jw.dwd_data_correction_record(
    data_type      Int32      comment '数据类型 1:转向比,2:统计,3:评价,4:区域,6:静态排队,7:动态排队',
    device_no      String     comment '设备编号',
    id             String     comment '唯一ID',
    create_time    DateTime   comment '创建时间',
    record_type    Int32      comment '记录类型 0:补全,1:修复',
    day            Date       comment '日期'
)
ENGINE = MergeTree
PARTITION BY day
PRIMARY KEY (day,id)
ORDER BY (day,id)
SETTINGS index_granularity = 8192;

2.2 SQL语句

复制代码
--1.2统计数据补全记录
select
       '2' data_type,
       t2.device_no,
       t2.id,
       t2.create_time,
       '0' record_type,
       cast(t2.day as String) day
from hurys_jw.dwd_statistics as t2
left join hurys_jw.ods_statistics as t3
on t3.device_no=t2.device_no and t3.create_time=t2.create_time and t3.lane_no=t2.lane_no
       and t3.section_no = t2.section_no and t3.coil_no=t2.coil_no
where t2.day='2024-12-16'  and  length(t3.device_no)=0
;

注意红色部分,由于DWD清洗表的device_no没有设置允许非空,因此不能使用 t3.device_no is null 作为条件

2.3 Kettle任务

2.3.1 newtime

2.3.2 替换NULL值

2.3.3 clickhouse输入

2.3.4 字段选择

2.3.5 clickhouse输出

2.3.6 Kettle任务运行

搞定!

相关推荐
Lx3521 天前
Hadoop数据处理流水线设计:提高作业执行效率
大数据·hadoop
时序数据说1 天前
时序数据库IoTDB:为何成为工业数据管理新宠?
大数据·数据库·物联网·开源·时序数据库·iotdb
计算机编程小央姐1 天前
大数据毕业设计选题推荐:学生考试表现影响因素Hadoop+Spark实现方案
大数据·hadoop·数据分析·spark·毕业设计·课程设计
BYSJMG1 天前
计算机大数据毕业设计推荐:基于Spark的新能源汽车保有量可视化分析系统
大数据·分布式·python·spark·django·编辑器·课程设计
IT毕设梦工厂1 天前
大数据毕业设计选题推荐-基于大数据的儿童出生体重和妊娠期数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·信息可视化·spark·毕业设计·源码·bigdata
用户Taobaoapi20141 天前
京东商品详情API的技术文档框架及Python实现方案
大数据·数据挖掘·数据分析
幺洞两肆1 天前
以StarRocks为例讲解MPP架构和列式存储
大数据·数据库
CodeCraft Studio1 天前
借助 TX Text Control:在 .NET C# 中使用 PDF/A-3b 创建可信文档容器
大数据·pdf·数字签名·tx text control·pdf/a-3b·pdf文档开发
天道有情战天下1 天前
ClickHouse使用Docker部署
clickhouse·docker·容器
在未来等你1 天前
Elasticsearch面试精讲 Day 8:聚合分析与统计查询
大数据·分布式·elasticsearch·搜索引擎·面试