Spark SQL----INSERT OVERWRITE DIRECTORY

Spark SQL----INSERT OVERWRITE DIRECTORY

一、描述

INSERT OVERWRITE DIRECTORY语句使用spark文件格式或Hive Serde,用新的值覆盖目录中的现有数据。使用Hive Serde必须启用Hive支持。插入的行可以由值表达式指定,也可以由查询结果指定。

二、语法

sql 复制代码
INSERT OVERWRITE [ LOCAL ] DIRECTORY [ directory_path ]
    { spark_format | hive_format }
    { VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ] | query }

spark_format定义为

sql 复制代码
USING file_format [ OPTIONS ( key = val [ , ... ] ) ]

hive_format定义为

sql 复制代码
[ ROW FORMAT row_format ] [ STORED AS hive_serde ]

三、参数

  • directory_path
    指定目标目录。LOCAL关键字用于指定目录在本地文件系统上。在spark文件格式中,也可以使用path在OPTIONS中指定,但directory_path和path选项不能同时指定。
  • file_format
    指定用于插入的文件格式。有效选项为TEXT、CSV、JSON、JDBC、PARQUET、ORC、HIVE、LIBSVM,或org.apache.spark.sql.execution.datasources.FileFormat的自定义实现的完全限定类名。
  • OPTIONS ( key = val [ , ... ] )
    指定一个或多个用于写入文件格式的选项。
  • hive_format
    指定用于插入的文件格式。row_format和hive_serde都是可选的。ROW FORMAT SERDE只能与 TEXTFILE, SEQUENCEFILE或RCFILE一起使用,而ROW FORMAT DELIMITED只能与TEXTFILE一起使用。如果两者都没有定义,spark将使用TEXTFILE。
  • row_format
    指定此插入的行格式。有效的选项是SERDE子句和DELIMITED子句。SERDE子句可用于为此插入指定自定义SerDe。或者,DELIMITED子句可以用于指定本机SerDe并声明分隔符、转义符、null字符等。
  • hive_serde
    指定此插入的文件格式。有效选项为TEXTFILE、SEQUENCEFILE、RCFILE、ORC、PARQUET和AVRO。你也可以使用INPUTFORMAT和OUTPUTFORMAT指定自己的输入和输出格式。
  • VALUES ( { value | NULL } [ , ... ] ) [ , ( ... ) ]
    指定要插入的值。可以插入显式指定的值或NULL。必须使用逗号分隔子句中的每个值。可以指定多个值集来插入多行。
  • query
    生成要插入的行的查询。它可以是以下格式之一:
    • SELECT语句
    • Inline Table语句
    • FROM语句

四、例子

4.1 Spark format

sql 复制代码
INSERT OVERWRITE DIRECTORY '/tmp/destination'
    USING parquet
    OPTIONS (col1 1, col2 2, col3 'test')
    SELECT * FROM test_table;

INSERT OVERWRITE DIRECTORY
    USING parquet
    OPTIONS ('path' '/tmp/destination', col1 1, col2 2, col3 'test')
    SELECT * FROM test_table;

4.2 Hive format

sql 复制代码
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/destination'
    STORED AS orc
    SELECT * FROM test_table;

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/destination'
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
    SELECT * FROM test_table;
相关推荐
珠海西格20 分钟前
四可装置如何监测组件衰减与逆变器效率?
大数据·运维·服务器·分布式·能源
瑞和数智25 分钟前
案例分享 | 瑞和数智助力某农商行打造标签管理平台
大数据·人工智能·科技·金融
科技前瞻观察25 分钟前
技术自主、量产突围、产业链协同:宇树科技、优艾智合领衔具身智能TOP20领跑全球
大数据·人工智能·科技
电商API&Tina1 小时前
比价 / 选品专用:京东 + 淘宝 核心接口实战(可直接复制运行)
大数据·数据库·人工智能·python·json·音视频
intcube1 小时前
从“数”到“智”——智达方通EPM如何推动企业韧性增长与创新?
大数据·人工智能·全面预算管理·财务规划·商业智能
大厂观察员1 小时前
AI日记:BERT 和 GPT 选型难题怎么破
大数据·人工智能
GOWIN革文品牌咨询1 小时前
B2B品牌架构实操:集团品牌、业务品牌、产品品牌的6问判断法
大数据·人工智能·重构·智能设备·b2b品牌策划·b2b品牌设计
咕噜签名-铁蛋1 小时前
GPU型实例安装nvidia-fabricmanager服务完整实操指南
大数据·数据库·人工智能·ai编程
wzl202612132 小时前
基于规则引擎的新客欢迎语自动化:从0到1搭建智能破冰系统
大数据·运维·自动化
仗剑_走天涯2 小时前
Hadoop 安装
大数据·hadoop·分布式