hive分区表临时加载日批数据文件

源系统每日上传一个csv数据文件到数据中台指定目录,数据中台用hive表进行ETL工作。

先建一个外部分区表:

sql 复制代码
create external table tmp_lease_contract
(   
contract_id string,
vin string,
amount float
)
partitioned by (dt string)
row format delimited 
fields terminated by ","
stored as textfile
TBLPROPERTIES ('skip.header.line.count'='1')
location "/dmp/tmp/sales/lease_contract";

每日数据按命名规则存放到相应的./dt=20250718这样的子目录,再加一下分区信息:

sql 复制代码
alter table tmp_lease_contract add if not exists partition(dt='20250718');
select * from tmp_lease_contract where dt='20250718'

目录示例如下:

复制代码
/dmp/tmp/sales/lease_contract/
|-- dt=20250716
|    |-- 	lease_contract_20250716.csv
|-- dt=20250715
|    |-- 	lease_contract_20250715.csv
相关推荐
顧棟6 小时前
【Hive实战】hive-testbench的调研
数据仓库·hive·hadoop
计算机编程小央姐7 小时前
大数据毕业设计选题推荐:基于Hadoop+Spark的全球能源消耗数据分析与可视化系统
大数据·hadoop·数据分析·spark·课程设计·毕设
计算机编程小央姐7 小时前
企业级大数据技术栈:基于Hadoop+Spark的全球经济指标分析与可视化系统实践
大数据·hadoop·hdfs·spark·echarts·numpy·课程设计
Q26433650239 小时前
【有源码】基于Hadoop+Spark的AI就业影响数据分析与可视化系统-AI驱动下的就业市场变迁数据分析与可视化研究-基于大数据的AI就业趋势分析可视化平台
大数据·hadoop·机器学习·数据挖掘·数据分析·spark·毕业设计
IT毕设梦工厂9 小时前
大数据毕业设计选题推荐-基于大数据的汽车之家数据分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
emmm...12 小时前
hive连不上,报错9000拒绝连接
数据仓库·hive·hadoop
野老杂谈12 小时前
Hive SQL 中的时间戳转换详解
hive·hadoop·sql
大数据CLUB12 小时前
基于hive和mapreduce的地铁数据分析及可视化_hive作为数据库
大数据·hive·hadoop·分布式·数据分析·mapreduce
嘉禾望岗50312 小时前
hive SQL查询与函数
hive·hadoop·sql
不吃饭的猪14 小时前
hive表元数据修复脚本
数据仓库·hive·hadoop