Hive parquet表通过csv文件导入数据

1. background

已建好了 hive parquet 格式的表, 需要从服务器的csv导入数据至该hive表

2. step

  1. 提前上传csv至服务器 /path/temp.csv

  2. 创建 textfile 格式的中转表(这里使用内部表,方便删除) ,源表名dw_procurement.dwd_tc_comm_plant ,这里中转表加上了csv后缀

sql 复制代码
CREATE TABLE IF NOT EXISTS dw_procurement.dwd_tc_comm_plant_csv (
  `city` string, 
  `plant_address` string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
  1. 导入 csv 数据至中转表 ,在hive命令行下输入命令
sql 复制代码
load data local inpath '/path/temp.csv' into  table dw_procurement.dwd_tc_comm_plant_csv;
  1. 中转表数据转移至目标表,在hive命令行下输入命令
sql 复制代码
insert into dw_procurement.dwd_tc_comm_plant select * from dw_procurement.dwd_tc_comm_plant_csv;

复制代码
1.你基于 a.csv 创建了外部表 A。
2.然后你执行了 DROP TABLE A。
3.接着你重新创建了一个表 A,但这次是基于 b.csv,而这两个文件的列结构相同,但数据内容不同。

你想确认重新创建的表 A 是否仍然使用的 a.csv 里的数据。

情况 1:重新创建表时指定了新的 LOCATION

如果你在重新创建表 A 时指定了新文件 b.csv 的路径,

例如:

sql 复制代码
CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '/path/to/b.csv';

那么,表 A 将会使用 b.csv 中的数据。Hive 只会读取你在创建表时指定的文件路径的数据,并不会保留之前的 a.csv 数据。

情况 2:重新创建表时未指定 LOCATION

如果你在重新创建表 A 时没有指定新的 LOCATION,而 Hive 默认的 LOCATION 是原来 a.csv 的路径(例如 /user/hive/warehouse/<table_name>/),那么 Hive 将会再次使用原来的路径,表 A 仍然会读取 a.csv 中的数据。

sql 复制代码
CREATE EXTERNAL TABLE A (
    id INT,
    name STRING
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

在这种情况下,表 A 的数据仍然会是 a.csv 中的数据。

相关推荐
嘉禾望岗50341 分钟前
hive join优化和数据倾斜处理
数据仓库·hive·hadoop
yumgpkpm1 小时前
华为鲲鹏 Aarch64 环境下多 Oracle 数据库汇聚操作指南 CMP(类 Cloudera CDP 7.3)
大数据·hive·hadoop·elasticsearch·zookeeper·big data·cloudera
忧郁火龙果2 小时前
六、Hive的基本使用
数据仓库·hive·hadoop
忧郁火龙果3 小时前
五、安装配置hive
数据仓库·hive·hadoop
chad__chang17 小时前
dolphinscheduler安装过程
hive·hadoop
莫叫石榴姐1 天前
字节数开一面
大数据·数据仓库·职场和发展
ajax_beijing1 天前
hadoop的三副本数据冗余策略
大数据·hadoop·分布式
weixin_307779132 天前
在 Microsoft Azure 上部署 ClickHouse 数据仓库:托管服务与自行部署的全面指南
开发语言·数据库·数据仓库·云计算·azure
weixin_307779132 天前
AWS Redshift 数据仓库完整配置与自动化管理指南
开发语言·数据仓库·python·云计算·aws