presto操作hive数据的时候如何覆盖写数据

在hive中实现表数据覆盖写用的是insert overwrite,但是这个语句在presto中不支持,在presto中你需要在sql前面写上如下的参数

sql 复制代码
set session hive.insert_existing_partitions_behavior = 'overwrite';

这个配置其他两个参数值如下:

sql 复制代码
set session hive.insert_existing_partitions_behavior = 'append';
set session hive.insert_existing_partitions_behavior = 'error';

默认是append追加写,error一般情况下用不到

带上这个参数之后,正常写insert into语句就行,已存在的分区中的数据会被覆盖,若分区不存在会新建。

要注意的是,有的人会先delete旧数据,但是这种操作会造成分区结构被删掉但是同时底层文件仍然存在的问题,Presto认为该分区不存在,需要新建分区,但底层文件其实还存在,这样会造成 Unable to rename ... 的报错。需要手动去hadoop里删掉底层数据

同时要注意你使用的发行版是那个,博主之前用过李老板家的BOS,那个服务的第三方路径是dgs,因此这个配置被封装成了hivedgs.insert_existing_partitions_behavior

相关推荐
武子康9 小时前
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
大数据·hadoop·后端
仗剑_走天涯13 小时前
zookeeper 安装与配置
hadoop·zookeeper
zhixingheyi_tian13 小时前
hdfs.c 之解析
c语言·hadoop·hdfs
AllData公司负责人14 小时前
AllData数据中台通过集成开源项目Apache IOTDB Web相关项目,建设物联网数据库平台
数据仓库·物联网·时序数据库·iotdb·工业物联网·apache iotdb·物联网数据库平台
Leo.yuan14 小时前
数据仓库是什么?数据仓库和BI有什么区别?
数据仓库
heimeiyingwang1 天前
【架构实战】ETL架构演进:从批处理到实时流处理
数据仓库·架构·etl
素玥1 天前
实训4 ETL构建中间层
数据仓库·etl
武子康2 天前
大数据-262 实时数仓 - Canal 同步数据实战指南 实时统计
大数据·hadoop·后端
苛子2 天前
ETL与ELT的区别与选择:企业数据集成方案深度对比
数据仓库·etl
清水白石0082 天前
Python 日志采集到数据仓库 ETL 流程设计实战:从基础语法到生产级可靠运维
数据仓库·python·etl