Spark-SQL核心编程

通用方式：加载使用 spark.read.load ，可通过 format("...") 指定数据类型， load("...") 传入数据路径， option("...") 设置JDBC参数。保存用 df.write.save ，同样可指定类型、路径和JDBC参数，还能通过 mode() 设置 SaveMode 处理已存在文件。
Parquet格式：Spark SQL默认数据源，加载和保存操作简单，无需 format 指定，修改 spark.sql.sources.default 可更改默认格式。
JSON格式：能自动推测结构加载为 Dataset[Row] ，读取的JSON文件每行应为JSON串。
CSV格式：可配置列表信息，通过设置 sep inferSchema header 等选项读取，第一行设为数据列。
MySQL：借助JDBC读取和写入数据。读取时导入 mysql-connector-java 依赖，可使用 spark.read.format("jdbc") 多种形式；写入时先创建数据集，再按JDBC格式设置参数并指定 SaveMode 保存。

内嵌Hive：使用方便，直接可用，但实际生产中很少使用。
外部Hive：在 spark-shell 连接需拷贝 hive-site.xml core-site.xml hdfs-site.xml 到 conf/ 目录，将 hive-site.xml 中 localhost 改为实际节点名，拷贝MySQL驱动到 jars/ 目录，最后重启 spark-shell 。
Spark beeline：Spark Thrift Server兼容HiveServer2，部署后可用 beeline 访问。连接步骤与连接外部Hive类似，还需启动Thrift Server，用 beeline -u jdbc:hive2://node01:10000 -n root 连接。
Spark-SQL CLI：可本地运行Hive元数据服务并执行查询。操作时将MySQL驱动放入 jars/ ， hive-site.xml 放入 conf/ ，运行 bin/ 目录下的 spark-sql.cmd 。
代码操作Hive：先导入 spark-hive_2.12 和 hive-exec 依赖，拷贝 hive-site.xml 到项目 resources 目录，代码中启用Hive支持。若遇权限问题，可设置 System.setProperty("HADOOP_USER_NAME", "node01") ，还可修改数据库仓库地址。