Hive 分区表变更字段长度不生效

同事使用Alter语句变更了Hive分区表的字段长度,发现历史分区的字段长度没有被改变,查百度,问AI也没问出个所以然,问我是怎么回事。

这让我联想起了之前建表没有定义列分隔符,导入数据之后查询出来都是Null值,查看Hadoop的上存储的数据,发现数据都在,很显然hive根据建表时的定义去拆分数据,没有指定列分隔符hive就懵逼了。基于这个经验,猜想hive会根据存储的元数据去展示不同的分区下的数据。

基于这个猜想准备试验数据,创建日期表test01,只有一个字符串类型的字段,长度为2:

sql 复制代码
DROP TABLE IF EXISTS test01;

--创建表
CREATE TABLE IF NOT EXISTS test01(
  col1      VARCHAR(2)  COMMENT  '列1'
)COMMENT '测试用表'
PARTITIONED BY (BATCH_DATE VARCHAR(10))
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
;

导入数据:

sql 复制代码
 load data local inpath '/home/tim/test01.csv' into table test01 partition(batch_date='2025-10-08');

hive查询数据如下:

Hadoop文件内容:

可见Hive确实是依据DDL的定义截断并"展示"数据。

接下来使用Alter语句将字段扩增至4位长度并将同样的数据插入下一日分区,并查看数据

sql 复制代码
alter table test01 change col1 col1 varchar(4);

load data local inpath '/home/tim/test01.csv' into table test01 partition(batch_date='2025-10-09');

select * from test01;

到此已经复现了同事遇到的问题,重复上面操作,使用Alter语句将字段扩增至10位长度并将同样的数据插入下一日分区,并查看数据:

可以看到问题依旧。使用下列语句MySQL查询元数据库

sql 复制代码
/*查看分区,列名,类型名*/
select t1.SD_ID ,t1.CD_ID ,t1.LOCATION ,t2.COLUMN_NAME ,t2.TYPE_NAME  from hive.sds t1 join hive.columns_v2 t2 on t1.CD_ID =t2.CD_ID 
where COLUMN_NAME='col1'

可以看到:

分区表的每个分区和表自身都被记录了一个历史长度,hive根据元数据解释(展现)存储的数据,超过长度的就被截断了。

外网回答这个时候需要在Alter语句后面加cascade关键字,才能把分区的元数据一起改了。

sql 复制代码
alter table test01 change col1 col1 varchar(10) cascade;

然而执行了并没有什么用:元数据还是那样。经过实验发现,先扩增到比任何分区都长的精度,然后再调回来即可,可能是个Bug吧

先执行alter table test01 change col1 col1 varchar(200),表级的长度是200了,分区级的还是不变。

再执行alter table test01 change col1 col1 varchar(10) cascade,所有分区的字段长度就都统一了。

相关推荐
jinxinyuuuus1 小时前
vsGPU:硬件参数的数据仓库设计、ETL流程与前端OLAP分析
前端·数据仓库·etl
编织幻境的妖6 小时前
ETL、数据仓库与数据湖详解
数据仓库·etl
爱吃大芒果6 小时前
Flutter 本地存储方案:SharedPreferences、SQFlite 与 Hive
开发语言·javascript·hive·hadoop·flutter·华为·harmonyos
咨询qq 8762239657 小时前
三相逆变器MPC控制:从原理到仿真实践
数据仓库
shjita8 小时前
hadoop运行jar包的相关配置参考!
大数据·hadoop·分布式
yumgpkpm8 小时前
AI大模型手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
大数据·人工智能·hadoop·华为·spark·kafka·cloudera
yumgpkpm8 小时前
(简略)AI 大模型 手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
人工智能·hive·zookeeper·flink·spark·kafka·开源
yumgpkpm8 小时前
Cloudera CDP 7.3下载地址、方式,开源适配 CMP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)值得推荐
大数据·hive·hadoop·分布式·华为·开源·cloudera
笨蛋少年派20 小时前
数据仓库系统建设:数据采集、预处理与集成
数据仓库
qq 87622396521 小时前
基于Matlab/simulink的双电机建模驱动控制仿真模型:探索纯电与混动汽车世界
数据仓库