Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
IvanCodes30 分钟前
三、Hadoop1.X及其组件的深度剖析
大数据·hadoop·分布式
IvanCodes1 小时前
三、Hive DDL数据库操作
大数据·数据库·hive·hadoop
wuli玉shell2 小时前
spark-Schema 定义字段强类型和弱类型
android·java·spark
vx153027823622 小时前
‌CDGP|数据治理:探索企业数据有序与安全的解决之道
大数据·运维·网络·cdgp·数据治理
caihuayuan54 小时前
前端面试2
java·大数据·spring boot·后端·课程设计
houzhizhen4 小时前
SQL JOIN 关联条件和 where 条件的异同
前端·数据库·sql
大刘讲IT4 小时前
轻量化工业互联网平台在中小制造企业的垂直应用实践:架构、集成、数据价值与选型策略
大数据·学习·程序人生·架构·数据挖掘·能源·制造
泡芙萝莉酱5 小时前
各省份发电量数据(2005-2022年)-社科数据
大数据·人工智能·深度学习·数据挖掘·数据分析·毕业论文·数据统计
码农黛兮_465 小时前
MySQL数据库容灾设计案例与SQL实现
数据库·sql·mysql
野犬寒鸦5 小时前
MySQL索引详解(下)(SQL性能分析,索引使用)
数据库·后端·sql·mysql