hive分区表临时加载日批数据文件

源系统每日上传一个csv数据文件到数据中台指定目录,数据中台用hive表进行ETL工作。

先建一个外部分区表:

sql 复制代码
create external table tmp_lease_contract
(   
contract_id string,
vin string,
amount float
)
partitioned by (dt string)
row format delimited 
fields terminated by ","
stored as textfile
TBLPROPERTIES ('skip.header.line.count'='1')
location "/dmp/tmp/sales/lease_contract";

每日数据按命名规则存放到相应的./dt=20250718这样的子目录,再加一下分区信息:

sql 复制代码
alter table tmp_lease_contract add if not exists partition(dt='20250718');
select * from tmp_lease_contract where dt='20250718'

目录示例如下:

复制代码
/dmp/tmp/sales/lease_contract/
|-- dt=20250716
|    |-- 	lease_contract_20250716.csv
|-- dt=20250715
|    |-- 	lease_contract_20250715.csv
相关推荐
szial9 小时前
Hive 向量化执行引擎 Vectorized Execution 常见 NPE 报错分析及解决
hive·hadoop
淦暴尼13 小时前
认识ETL流程:数据工程的基石
数据仓库·etl·原型模式
码字的字节16 小时前
Hadoop安全机制深度剖析:Kerberos认证与HDFS ACL细粒度权限控制
hadoop·安全·hdfs·kerberos·acl
♛暮辞16 小时前
hadoop(服务器伪分布式搭建)
服务器·hadoop·分布式
码字的字节19 小时前
深入解析Hadoop YARN架构设计:从原理到实践
hadoop·yarn
码字的字节21 小时前
Hadoop与云原生集成:弹性扩缩容与OSS存储分离架构深度解析
hadoop·云原生·架构·oss存储
计艺回忆路1 天前
Hive自定义函数(UDF)开发和应用流程
hive·自定义函数·udf
万能小锦鲤2 天前
《大数据技术原理与应用》实验报告三 熟悉HBase常用操作
java·hadoop·eclipse·hbase·shell·vmware·实验报告
天翼云开发者社区2 天前
数据治理的长效机制
大数据·数据仓库