hive分区表临时加载日批数据文件

无级程序员2025-07-19 23:10

源系统每日上传一个csv数据文件到数据中台指定目录，数据中台用hive表进行ETL工作。

先建一个外部分区表：

sql 复制代码

create external table tmp_lease_contract
(   
contract_id string,
vin string,
amount float
)
partitioned by (dt string)
row format delimited 
fields terminated by ","
stored as textfile
TBLPROPERTIES ('skip.header.line.count'='1')
location "/dmp/tmp/sales/lease_contract";

每日数据按命名规则存放到相应的./dt=20250718这样的子目录，再加一下分区信息：

sql 复制代码

alter table tmp_lease_contract add if not exists partition(dt='20250718');
select * from tmp_lease_contract where dt='20250718'

目录示例如下：

复制代码

/dmp/tmp/sales/lease_contract/
|-- dt=20250716
|    |-- 	lease_contract_20250716.csv
|-- dt=20250715
|    |-- 	lease_contract_20250715.csv

上一篇：【Python】DRF核心组件详解：Mixin与Generic视图

下一篇：使用GoHumanLoop提升模型上下文MCP服务人机协同能力