Hive parquet表通过csv文件导入数据

1. background

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表

2. step

提前上传csv至服务器 /path/temp.csv
创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名dw_procurement.dwd_tc_comm_plant ,这里中转表加上了csv后缀

sql 复制代码

CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (
  `city` string, 
  `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

导入 csv 数据至中转表 ,在hive命令行下输入命令

sql 复制代码

load data local inpath '/path/temp.csv' into  table dw_procurement.dwd_tc_comm_plant_csv;

中转表数据转移至目标表,在hive命令行下输入命令

sql 复制代码

insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;

附

复制代码

1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A，但这次是基于 b.csv，而这两个文件的列结构相同，但数据内容不同。

你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。

情况 1：重新创建表时指定了新的 LOCATION

如果你在重新创建表 A 时指定了新文件 b.csv 的路径，

例如：

sql 复制代码

CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';

那么，表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据，并不会保留之前的 a.csv 数据。

情况 2：重新创建表时未指定 LOCATION

如果你在重新创建表 A 时没有指定新的 LOCATION，而 Hive 默认的 LOCATION 是原来 a.csv 的路径（例如 /user/hive/warehouse/<table_name>/），那么 Hive 将会再次使用原来的路径，表 A 仍然会读取 a.csv 中的数据。

sql 复制代码

CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

在这种情况下，表 A 的数据仍然会是 a.csv 中的数据。