Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
小Tomkk1 小时前
数据仓库命名规范
大数据·数据仓库·spark
申耀的科技观察1 小时前
【观察】亚信科技:AI大模型交付引领,三大新引擎重构业务增长逻辑
大数据·人工智能·科技·重构
奋进小子2 小时前
达梦DISQL执行SQL和SQL脚本
数据库·sql
趣味科技v6 小时前
阵痛中的AI进化样本:亚信科技2025中期业绩解读
大数据·人工智能·科技
AllData公司负责人7 小时前
DataFun联合开源AllData社区和开源Gravitino社区将在8月9日相聚数据治理峰会论坛
大数据·数据库·sql·开源
AORO20258 小时前
三防平板+天通卫星电话,打通无人之境的通信经脉
大数据·网络·人工智能·5g·电脑·信息与通信
BigData共享8 小时前
StarRocks 逻辑分片 tablet & segment 文件
大数据
云云3219 小时前
Lazada东南亚矩阵营销破局:指纹手机如何以“批量智控+数据中枢”重构运营生态
大数据·人工智能·线性代数·智能手机·矩阵·重构
lifallen10 小时前
Kafka ISR机制和Raft区别:副本数优化的秘密
java·大数据·数据库·分布式·算法·kafka·apache
iknow18111 小时前
【Web安全】Sql注入之SqlServer和MySQL的区别
sql·mysql·sqlserver