Hive parquet表通过csv文件导入数据

1. background

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表

2. step

  1. 提前上传csv至服务器 /path/temp.csv

  2. 创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名dw_procurement.dwd_tc_comm_plant ,这里中转表加上了csv后缀

sql 复制代码
CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (
  `city` string, 
  `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. 导入 csv 数据至中转表 ,在hive命令行下输入命令
sql 复制代码
load data local inpath '/path/temp.csv' into  table dw_procurement.dwd_tc_comm_plant_csv;
  1. 中转表数据转移至目标表,在hive命令行下输入命令
sql 复制代码
insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;

复制代码
1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A,但这次是基于 b.csv,而这两个文件的列结构相同,但数据内容不同。

你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。

情况 1:重新创建表时指定了新的 LOCATION

如果你在重新创建表 A 时指定了新文件 b.csv 的路径,

例如:

sql 复制代码
CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';

那么,表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据,并不会保留之前的 a.csv 数据。

情况 2:重新创建表时未指定 LOCATION

如果你在重新创建表 A 时没有指定新的 LOCATION,而 Hive 默认的 LOCATION 是原来 a.csv 的路径(例如 /user/hive/warehouse/<table_name>/),那么 Hive 将会再次使用原来的路径,表 A 仍然会读取 a.csv 中的数据。

sql 复制代码
CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

在这种情况下,表 A 的数据仍然会是 a.csv 中的数据。

相关推荐
一只废狗狗狗狗狗狗狗狗狗8 小时前
基于docker desktop的hadoop集群结点启动失败问题
hadoop·docker·docker desktop
`林中水滴`13 小时前
Iceberg vs Hudi
数据仓库
奥利文儿13 小时前
【虚拟机】Ubuntu24安装Miniconda3全记录:避坑指南与实践
大数据·数据仓库·人工智能·数据库开发·etl·虚拟机·etl工程师
飞Link13 小时前
【Hadoop】Linux(CentOS7)下安装Hadoop集群
大数据·linux·hadoop·分布式
飞Link14 小时前
【Sqoop】Linux(CentOS7)下安装Sqoop教程
linux·hive·hadoop·sqoop
飞Link14 小时前
【Hive】Linux(CentOS7)下安装Hive教程
大数据·linux·数据仓库·hive·hadoop
心止水j16 小时前
hbase 电商1
hive
菜鸟冲锋号18 小时前
适配AI大模型非结构化数据需求:数据仓库的核心改造方向
大数据·数据仓库·人工智能·大模型
小鸡脚来咯18 小时前
Hive分桶表:大数据开发的性能优化利器
大数据·hive·性能优化
木卫二号Coding18 小时前
hivesql 字段aa值 如何去掉前面的0
hive