Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
努力的光头强1 小时前
《智能体设计模式》从零基础入门到精通,看这一篇就够了!
大数据·人工智能·深度学习·microsoft·机器学习·设计模式·ai
w***37511 小时前
【SQL技术】不同数据库引擎 SQL 优化方案剖析
数据库·sql
小园子的小菜1 小时前
深度剖析Elasticsearch数据写入与读取:从分片同步到核心组件协同
大数据·elasticsearch·搜索引擎
--fancy1 小时前
如何使用Tushare构建自己的本地量化投研数据库
数据库·sql·数据分析
2501_941089193 小时前
5G技术与物联网的融合:智能城市与工业革命的加速器
spark
我科绝伦(Huanhuan Zhou)4 小时前
SQL进阶必备:从计算字段到多表联结,让查询效率翻倍!
数据库·sql
samLi06204 小时前
【实证分析】股票市场羊群效应、股市羊群效应CSSD和CSAD数据集(2000-2024年)
大数据
武子康5 小时前
大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地
大数据·后端·apache kylin
海豚调度5 小时前
结项报告完整版 | 为 Apache DolphinScheduler 添加 gRPC 插件
大数据·任务调度·开源社区·大数据调度·apachedolphinscheduler
q***14645 小时前
MySQL 批量插入详解:快速提升大数据导入效率的实战方法
大数据·数据库·mysql