hive表修改字段类型没有级连导致历史分区报错

一:问题背景

修改hive的分区表时有级连概念,指字段的最新状态,默认只对往后的分区数据生效,而之前的分区保留历史元数据状态。好处就是修改语句的效率很快,坏处就是如果历史分区的数据还有用,那就回发生分区元数据和表元数据的不一致报错

最终导致:presto或hive任务抽取历史分区会报如下的错误

bash 复制代码
There is a mismatch between the table and partition schemas. 
The types are incompatible and cannot be coerced. The column 'xxxx' 
in table 'xxxx' is declared as type 'string', 
but partition 'xxxx' declared column 'xxxxx' as type 'double'.

二:想要避免这样的问题,那元数据正确的改动方法,应该是使用hive的客户端,运行修改语句时,带上级连关键字CASCADE,如新增一个字段

bash 复制代码
alter table table_name add columns (column_1 string,column_2 string) CASCADE

而此时你已经发生没有级连问题时,只能用hive客户端把历史分区整个用alter的方式删掉,重新生成

三:特殊情况

1、如果你改的是一个全量表,此时没有级联的概念,你的修改最多的会导致数据改动时引擎发现已有数据类型和你要改的类型不一样,说白了就是无论做任何修改都要保证元数据的一致性

2、hive在改动字段元数据时一般不做前置检查,只会在你后期使用时报相应的错误,但是随着版本不同,后有前置检查的情况

3、上面这个问题如果你不想重新跑数据,那么情况允许可以使用spark引擎跑任务,因为spark没有级连的概念,始终和表元数据看齐,但是hive或者presto这些引擎有,遇到这样的情况就会报错

相关推荐
隐于花海,等待花开3 小时前
COLLECT_LIST函数详解
hive
隐于花海,等待花开5 小时前
数据开发常问的技术性问题及解答
大数据·hive
曹宇飞丶5 小时前
ambari server及元数据库(postgreSQL)迁移
hadoop·ambari
隐于花海,等待花开11 小时前
窗口函数之排序函数详细解读及示例
大数据·数据库·hive
数字化顾问12 小时前
(87页PPT)数据战略规划(附下载方式)
大数据·数据仓库·数据挖掘
隐于花海,等待花开13 小时前
Hive 正则函数详解与示例
数据仓库·hive·hadoop
隐于花海,等待花开13 小时前
Hive专题:数据开发面试高频题(TopN、留存、连续登录等)
hive·hadoop·面试
木心术115 小时前
大数据处理技术:Hadoop与Spark核心原理解析
大数据·hadoop·分布式·spark
SelectDB技术团队1 天前
基于 SelectDB 实现 Hive 数据湖统一分析:洋钱罐全球一体化探索分析平台升级实践
数据仓库·数据分析·apache doris·selectdb
爱喝水的鱼丶1 天前
SAP-ABAP:深入浅出 SAP AFVC 表:生产订单工序的核心数据仓库
运维·服务器·数据仓库·sap·abap·pp