Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
北邮-吴怀玉4 小时前
2.2.1.1 大数据方法论与实践指南-公司产品&功能命名管理
大数据·数据治理
码龄3年 审核中9 小时前
说说SSH的端口转发
大数据·运维·ssh
数字化顾问9 小时前
SQL之键与约束实战进阶——从基础语法到高并发场景优化
sql
SeaTunnel9 小时前
(二)从分层架构到数据湖仓架构:数据仓库分层下的技术架构与举例
大数据·数据仓库·数据分析·数据同步
数据库安全10 小时前
牛品推荐|分类分级效能飞跃:美创智能数据安全分类分级平台
大数据·人工智能·分类
数据库安全10 小时前
《金融电子化》:构建金融韧性运行安全体系:从灾备管理到主动防御新范式
大数据·安全·金融
GG向前冲11 小时前
【大数据】Spark MLlib 机器学习流水线搭建
大数据·机器学习·spark-ml
l1t11 小时前
利用DuckDB SQL求解集合数学题
数据库·sql·算法·集合·duckdb
我要升天!12 小时前
Git的原理与使用 -- 基础操作
大数据·服务器·git·elasticsearch
阿里云大数据AI技术13 小时前
云栖实录 | 实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
大数据·人工智能