hive的cascade使用解释

最近看到涉及到hive表字段新增,项目组其他人员让我add columns后加 cascade,这个我以前见到过,但是我一般没有用,也没出问题,那就研究下。

网上大多数的说法就是分区表加字段需要级联,原因是,你add column只针对后面的新增分区,历史分区没有加上字段,后面你插入数据也无法查询。

实践是检验真理的唯一标准。

复制代码
drop table if exists cc_test.cascade_1;
create table cc_test.cascade_1(
                                  id string ,
                                  name string
)
    partitioned by (bd_date string)
stored as parquet ;

insert into cc_test.cascade_1(id, name, bd_date) VALUES ('1','1','1'),('2','2','2');

alter table cc_test.cascade_1 add columns (sex string ) ;

insert into cc_test.cascade_1(id, name,sex, bd_date) VALUES ('11','11','11','1'),('3','3','3','3');

select * from cc_test.cascade_1

擦 id=11 的这条数据的sex确实没有显现出来,难道我真的错了?

加了级联cascade 就好了。

其实不然,只需将表的存储类型改为orc即可。

说明了parquet由于存储类型的问题,add columns的需要加cascade

但是orc不需要的。

直接去官网看下cascade解释

ADD COLUMNS lets you add new columns to the end of the existing columns but before the partition columns. This is supported for Avro backed tables as well, for Hive 0.14 and later.

-- add columns 只支持在列的最后和分区字段前加列。

REPLACE COLUMNS removes all existing columns and adds the new set of columns. This can be done only for tables with a native SerDe (DynamicSerDe, MetadataTypedColumnsetSerDe, LazySimpleSerDe and ColumnarSerDe). Refer to Hive SerDe for more information. REPLACE COLUMNS can also be used to drop columns. For example, "ALTER TABLE test_change REPLACE COLUMNS (a int, b int);" will remove column 'c' from test_change's schema.

--这个是repalce 和change的用法

The PARTITION clause is available in Hive 0.14.0 and later; see Upgrading Pre-Hive 0.13.0 Decimal Columns for usage.

-- 对某个分区的操作

The CASCADE |RESTRICT clause is available in Hive 1.1.0. ALTER TABLE ADD|REPLACE COLUMNS with CASCADE command changes the columns of a table's metadata, and cascades the same change to all the partition metadata. RESTRICT is the default, limiting column changes only to table metadata.

这里说的是默认是restrict 默认只改表的数据,cascade改表的元数据和分区的元数据

但是这里并没有说哪些类型的表不需要改?

ALTER TABLE ADD or REPLACE COLUMNS CASCADE will override the table partition's column metadata regardless of the table or partition's protection mode. Use with discretion.

The column change command will only modify Hive's metadata, and will not modify data. Users should make sure the actual data layout of the table/partition conforms with the metadata definition.

经过测试 textfile和parquet 需要加,orc和avro不需要,当然你要全部加上也没啥。

相关推荐
王小王-1231 小时前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
极光代码工作室3 小时前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
Database_Cool_3 小时前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
Database_Cool_5 小时前
什么是湖仓一体?和数据仓库的本质区别(附 AnalyticDB MySQL 湖仓一体方案)
数据库·数据仓库·mysql
Chris _data7 小时前
WPF 学习第三天 — Modbus RTU 串口通信
hadoop·学习·wpf
知识分享小能手10 小时前
Hadoop学习教程,从入门到精通,Flume日志采集系统 — 完整知识点与案例代码(9)
hadoop·学习·flume
递归尽头是星辰10 小时前
AI 访问数据仓库:从直连到微服务化
数据仓库·人工智能·微服务·dataagent·ai数据治理
Francek Chen1 天前
【大数据处理与分析】MapReduce:06 MapReduce编程实践
大数据·hadoop·分布式·mapreduce
王小王-1231 天前
基于 Hadoop 的二手房数据分析与可视化平台项目展示
大数据·hadoop·数据分析·大数据房价分析·二手房价格预测·hive房价数据分析
知识分享小能手1 天前
Hadoop学习教程,从入门到精通, HBase 分布式数据库 — 完整知识点与案例代码(8)
数据库·hadoop·分布式