SparkSession介绍

一、 介绍

  1. SparkSession是Spark 2.0中引入的新概念,它是Spark SQL、DataFrame和Dataset API的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;
  2. 它将以前的SparkContext、SQLContext和HiveContext组合在一起,使得用户可以在一个统一的接口下使用Spark的所有功能。
  3. 需要注意的是,SparkSession是一个重量级的对象,创建和销毁的代价较高,因此在项目中应该尽可能地重用同一个SparkSession对象。
  4. 在I/O期间,在构建器中设置的配置项将自动同步到Spark和Hadoop。

二、如何使用

复制代码
# 在项目中初始化SparkSession,可以按照以下步骤进行:
# 1、导入必要的包:
import org.apache.spark.sql.SparkSession
# 2、创建SparkSession对象:
val spark = SparkSession
      .builder  # 使用builder()方法创建一个SparkSession.Builder对象,构建器将自动重用现有的SparkSession;如果不存在则会创建一个SparkSession
      .appName("xxx")
      .config("hive.exec.dynamic.partition", "true")  # 设置分区
      .config("hive.exec.dynamic.partition.mode", "nonstrict") # 设置hive是动态写入的方式
      .config("spark.sql.broadcastTimeout", 3000)
      .config("spark.sql.sources.partitionOverwriteMode", "dynamic")  # 设置hive动态写分区
      .config("spark.checkpoint.dir", "/user/vc/projects_prod/checkpoint/data")  # 设置checkpoint的路径
      .enableHiveSupport()
      .getOrCreate()

# 3、使用SparkSession对象进行数据操作:
val df = spark.read.json("path/to/json/file")
df.show()

三、sparkSession的配置参数参考

https://blog.csdn.net/u010569893/article/details/111356664

相关推荐
迈巴赫车主6 小时前
Hive中分组聚合导致的数据倾斜优化
数据仓库·hive·hadoop
段一凡-华北理工大学6 小时前
工业领域的Hadoop架构学习~系列文章13:数据湖架构 - 工业大数据的统一存储底座
大数据·人工智能·hadoop·分布式·架构·高炉炼铁·高炉智能化
段一凡-华北理工大学7 小时前
工业领域的Hadoop架构学习~系列文章14:Hadoop集群部署 - 从规划到上线的全流程实践
大数据·数据库·人工智能·hadoop·学习·架构·高炉炼铁
暴躁小师兄数据学院18 小时前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
IDIOT___IDIOT1 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark
Nefu_lyh1 天前
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践
数据仓库·hive·hadoop
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章11:Kerberos安全认证
数据仓库·hadoop·学习·架构·高炉炼铁·工业智能体·高炉炼铁智能化
muddjsv1 天前
HBase与Hadoop:基于什么开发?深度剖析与架构图
数据库·hadoop·hbase
muddjsv1 天前
HBase 与 Hadoop 安装与上手使用全指导
数据库·hadoop·hbase