Hive 分区表变更字段长度不生效

同事使用Alter语句变更了Hive分区表的字段长度,发现历史分区的字段长度没有被改变,查百度,问AI也没问出个所以然,问我是怎么回事。

这让我联想起了之前建表没有定义列分隔符,导入数据之后查询出来都是Null值,查看Hadoop的上存储的数据,发现数据都在,很显然hive根据建表时的定义去拆分数据,没有指定列分隔符hive就懵逼了。基于这个经验,猜想hive会根据存储的元数据去展示不同的分区下的数据。

基于这个猜想准备试验数据,创建日期表test01,只有一个字符串类型的字段,长度为2:

sql 复制代码
DROP TABLE IF EXISTS test01;

--创建表
CREATE TABLE IF NOT EXISTS test01(
  col1      VARCHAR(2)  COMMENT  '列1'
)COMMENT '测试用表'
PARTITIONED BY (BATCH_DATE VARCHAR(10))
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS textfile
;

导入数据:

sql 复制代码
 load data local inpath '/home/tim/test01.csv' into table test01 partition(batch_date='2025-10-08');

hive查询数据如下:

Hadoop文件内容:

可见Hive确实是依据DDL的定义截断并"展示"数据。

接下来使用Alter语句将字段扩增至4位长度并将同样的数据插入下一日分区,并查看数据

sql 复制代码
alter table test01 change col1 col1 varchar(4);

load data local inpath '/home/tim/test01.csv' into table test01 partition(batch_date='2025-10-09');

select * from test01;

到此已经复现了同事遇到的问题,重复上面操作,使用Alter语句将字段扩增至10位长度并将同样的数据插入下一日分区,并查看数据:

可以看到问题依旧。使用下列语句MySQL查询元数据库

sql 复制代码
/*查看分区,列名,类型名*/
select t1.SD_ID ,t1.CD_ID ,t1.LOCATION ,t2.COLUMN_NAME ,t2.TYPE_NAME  from hive.sds t1 join hive.columns_v2 t2 on t1.CD_ID =t2.CD_ID 
where COLUMN_NAME='col1'

可以看到:

分区表的每个分区和表自身都被记录了一个历史长度,hive根据元数据解释(展现)存储的数据,超过长度的就被截断了。

外网回答这个时候需要在Alter语句后面加cascade关键字,才能把分区的元数据一起改了。

sql 复制代码
alter table test01 change col1 col1 varchar(10) cascade;

然而执行了并没有什么用:元数据还是那样。经过实验发现,先扩增到比任何分区都长的精度,然后再调回来即可,可能是个Bug吧

先执行alter table test01 change col1 col1 varchar(200),表级的长度是200了,分区级的还是不变。

再执行alter table test01 change col1 col1 varchar(10) cascade,所有分区的字段长度就都统一了。

相关推荐
B站_计算机毕业设计之家17 小时前
python电商商品评论数据分析可视化系统 爬虫 数据采集 Flask框架 NLP情感分析 LDA主题分析 Bayes评论分类(源码) ✅
大数据·hadoop·爬虫·python·算法·数据分析·1024程序员节
2501_9387820918 小时前
《Ubuntu 系统下 MySQL 安装前的环境检查与依赖准备指南》
hive·mysql·ubuntu·adb
RestCloud21 小时前
让数据流动更智能:元数据如何重塑DataOps与ETL
数据仓库·etl·数据处理·数据传输·元数据·数据集成平台·dataops
2501_938782091 天前
《大数据框架选型指南:Hadoop 与 Spark 的性能、成本与扩展性对比》
大数据·hadoop·spark
梦里不知身是客111 天前
hive的SQL语句练习2
hive·hadoop·sql
梦里不知身是客111 天前
hive的SQL练习3
hive·hadoop·sql
喻师傅1 天前
数据仓库——总线架构详解
数据仓库·架构
RyanJohnson1 天前
企业数据仓库
数据仓库·1024程序员节
Q26433650231 天前
【有源码】基于Hadoop与Spark的时尚精品店数据分析与可视化系统-基于多维度分析的零售时尚销售数据挖掘与可视化研究
大数据·hadoop·机器学习·数据挖掘·数据分析·spark·毕业设计