Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关推荐
九河云1 天前
海上风电“AI偏航对风”:把发电量提升2.1%,单台年增30万度
大数据·人工智能·数字化转型
一心赚狗粮的宇叔1 天前
中级软件开发工程师2025年度总结
java·大数据·oracle·c#
盛世宏博北京1 天前
云边协同・跨系统联动:智慧档案馆建设与功能落地
大数据·人工智能
Learn-Python1 天前
MongoDB-only方法
python·sql
是小章啊1 天前
MySQL 之SQL 执行规则及索引详解
数据库·sql·mysql
DX_水位流量监测1 天前
大坝安全监测之渗流渗压位移监测设备技术解析
大数据·运维·服务器·网络·人工智能·安全
面向Google编程1 天前
Flink源码阅读:Netty通信
大数据·flink
九河云1 天前
从“被动适配”到“主动重构”:企业数字化转型的底层逻辑
大数据·人工智能·安全·重构·数字化转型
齐 飞1 天前
使用阿里云的MaxCompute查询sql时报错:DruidPooledPreparedStatement: getMaxFieldSize error
sql·阿里云·odps
培培说证1 天前
2026 中专大数据技术专业考证书门槛低的有哪些?
大数据