Spark-SQL核心编程

Spark-SQL 核心编程

数据加载与保存

加载数据

spark.read.load 是加载数据的通用方法。如果读取不同格式的数据,可以对不同的数据格式进行设定

保存数据

df.write.save 是保存数据的通用方法。如果保存不同格式的数据,可以对不同的数据格式进行设定

Parquet

Spark SQL 的默认数据源为 Parquet 格式。Parquet 是一种能够有效存储嵌套数据的列式

JSON

加载json文件

val path = "/opt/module/spark-local/people.json"

val peopleDF = spark.read.json(path)

创建临时表

peopleDF.createOrReplaceTempView("people")

数据查询

val resDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")

CSV

Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为

MySQL

导入依赖

读取数据

写入数据

Spark-SQL连接Hive

内嵌的 HIVE

外部的 HIVE

运行 Spark beeline(了解

Spark Thrift Server 是 Spark 社区基于 HiveServer2 实现的一个 Thrift 服务。旨在无缝兼容HiveServer2。

运行Spark-SQL CLI

Spark SQL CLI 可以很方便的在本地运行 Hive 元数据服务以及从命令行执行查询任务。在 Spark 目录下执行如下命令启动 Spark SQL CLI,直接执行 SQL 语句,类似于 Hive 窗口。

相关推荐
Hello.Reader8 小时前
Spark RDD 编程从驱动程序到共享变量、Shuffle 与持久化
大数据·分布式·spark
梦里不知身是客111 天前
sparkSQL读取数据的方式
spark
少废话h1 天前
Spark 中数据读取方式详解:SparkSQL(DataFrame)与 SparkCore(RDD)方法对比及实践
大数据·sql·spark
大千AI助手1 天前
分布式奇异值分解(SVD)详解
人工智能·分布式·spark·奇异值分解·svd·矩阵分解·分布式svd
Hello.Reader2 天前
用 Spark Shell 做交互式数据分析从入门到自包含应用
大数据·数据分析·spark
梦里不知身是客112 天前
Spark介绍
大数据·分布式·spark
uesowys3 天前
Apache Spark算法开发指导-特征转换RobustScaler
spark·特征转换·robustscaler
努力成为一个程序猿.3 天前
【问题排查】hadoop-shaded-guava依赖问题
大数据·hadoop·spark
~kiss~3 天前
spark-SQL学习
sql·学习·spark
2501_938780285 天前
《不止 MapReduce:Hadoop 与 Spark 的计算模型差异及适用场景分析》
hadoop·spark·mapreduce