Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
华略创新23 分钟前
合理安排时间节点,避免影响正常生产——制造企业软件系统上线的关键考量
大数据·制造·crm·管理系统·企业管理软件
禁默43 分钟前
第六届大数据、人工智能与物联网工程国际会议(ICBAIE 2025)
大数据·人工智能·物联网
HaiLang_IT2 小时前
数据分析毕业论文题目推荐:精选选题清单
大数据·数据分析·毕业设计
数巨小码人2 小时前
Oracle SQL调优技巧实战指南
数据库·sql·oracle
档案宝档案管理3 小时前
制造业档案管理混乱:档案宝如何破解?
大数据·档案·档案管理
weixin_377634843 小时前
【大模型-写作】STORM提升文章深度
大数据·storm
奋斗的蛋黄3 小时前
HDFS与Yarn深入剖析
大数据·运维·hadoop
无名客04 小时前
SQL语句执行时间太慢,有什么优化措施?以及衍生的相关问题
java·数据库·sql·sql语句优化
咋吃都不胖lyh4 小时前
SQL数据分析原代码--创建表与简单查询
java·数据库·sql
七牛云行业应用4 小时前
企业级AI大模型选型指南:从评估部署到安全实践
大数据·人工智能·安全