二百二十四、Kettle——曲线实现从Hive插入更新到ClickHouse（分区字段是month或year）

一、目的

对于以month、year为分区字段的数据，不是像day字段分区那样每天增量插入更新即可，而是要以部分字段查询、部分字段更新，但是ClickHouse数据库并不适合更新操作，直接使用Kettle的插入更新控件会导致问题，必须曲线实现这个功能

二、Hive的DWS层建表语句和ClickHouse的ADS建表语句

（一） Hive的DWS层建表语句

复制代码

create  table  if not exists  dws_avg_volume_day_month(
    scene_name             string      comment '场景名称',
    device_direction       string      comment '雷达朝向',
    sum_volume_month       int         comment '每月总流量',
    count_day              int         comment '每月总天数',
    avg_volume_day_month   int         comment '月均维度的日平均流量'
)
comment '月均维度的日平均流量表'
partitioned by (month string)
stored as orc
;

（二）ClickHouse的ADS建表语句

复制代码

create  table  if not exists  hurys_dc_ads.ads_avg_volume_day_month(
    scene_name             String      comment '场景名称',
    device_direction       String      comment '雷达朝向',
    sum_volume_month       int         comment '每月总流量',
    count_day              int         comment '每月总天数',
    avg_volume_day_month   int         comment '月均维度的日平均流量',
    month                  String      comment '月份'
)ENGINE = MergeTree
PARTITION BY (month)
PRIMARY KEY month
order by month
SETTINGS index_granularity = 8192;

对于这类表，每天执行任务时scene_name、device_direction、month等String字段基本并不需要变，只有sum_volume_month、count_day、avg_volume_day_month等Int字段需要每日更新

三、对于插入更新这种需求，一般使用Kettle的增量插入更新

（一）似MySQL关系型数据库

如果似MySQL这种关系型数据库，适合增删改查等事务性操作，那么可以直接用Kettle的插入更新控件

1、Kettle的插入更新任务步骤（样例直接全量插入更新）

（1）关键是插入更新控件配置

2、在MySQL中直接修改表中数据

3、再次运行Kettle任务

4、在MySQL目标表中验证数据

数据量并没增加，只是发生更新

（二）类ClickHouse列式存储数据库

但是，对于ClickHouse这种列式存储数据库，不适合删除、修改等事务性操作，则没法直接使用Kettle的插入更新控件

1、Kettle的插入更新任务步骤

（1）关键是插入更新控件配置

用来查询的关键字是不需要基本不需要变更的字段，一般是主键，如果没有主键则几个字段组合成主键

更新字段是所有字段，不能把更新N，否则相关字段只能插入不能更新

2、用Kettle插入更新控件实现增量插入更新后，如果数据没有更改则运行没有问题

3、但是如果更改部分字段的数据，则会报错

（1）先在Hive中增加一天数据以增加DWS层表中数据

（2）再次运行Kettle任务，则会报错

所以，对于相同的插入更新控件配置，导入MySQL插入更新可以，导入ClickHouse插入更新则失败！

四、对于从Hive到ClickHouse，要实现插入更新的功能，只能先删除ClickHouse表数据再导入数据

（一）删除ClickHouse数据方式

删除ClickHouse数据虽然有几种方法，可以delete，也可以删除分区，也可以truncate，也可以TTL设置保存时间，还可以删除数据文件，但是对这种需要即时删除ClickHouse表中最新的分区数据，无法用delete、TTL等方式实现，而删除分区又太麻烦，刚好这几张表的数据量较少，因此先采用truncate方式，先删除表数据，再全量导入即可