Spark-SQL核心编程

Spark-SQL 核心编程

数据加载与保存

加载数据

spark.read.load 是加载数据的通用方法。如果读取不同格式的数据,可以对不同的数据格式进行设定

保存数据

df.write.save 是保存数据的通用方法。如果保存不同格式的数据,可以对不同的数据格式进行设定

Parquet

Spark SQL 的默认数据源为 Parquet 格式。Parquet 是一种能够有效存储嵌套数据的列式

JSON

加载json文件

val path = "/opt/module/spark-local/people.json"

val peopleDF = spark.read.json(path)

创建临时表

peopleDF.createOrReplaceTempView("people")

数据查询

val resDF = spark.sql("SELECT name FROM people WHERE age BETWEEN 13 AND 19")

CSV

Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为

MySQL

导入依赖

读取数据

写入数据

Spark-SQL连接Hive

内嵌的 HIVE

外部的 HIVE

运行 Spark beeline(了解

Spark Thrift Server 是 Spark 社区基于 HiveServer2 实现的一个 Thrift 服务。旨在无缝兼容HiveServer2。

运行Spark-SQL CLI

Spark SQL CLI 可以很方便的在本地运行 Hive 元数据服务以及从命令行执行查询任务。在 Spark 目录下执行如下命令启动 Spark SQL CLI,直接执行 SQL 语句,类似于 Hive 窗口。

相关推荐
计算机毕业编程指导师1 天前
【计算机毕设推荐】Python+Spark卵巢癌风险数据可视化系统完整实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
hadoop·python·计算机·数据挖掘·spark·毕业设计·卵巢癌
极光代码工作室1 天前
基于大数据的校园消费行为分析系统
大数据·hadoop·python·数据分析·spark
whuang0943 天前
腾讯云 emr 无法以cosn 写入云存储
spark
howard20054 天前
2.4.3 集群模式运行Spark项目
spark·项目打包·提交运行
孤雪心殇4 天前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟4 天前
Spark 性能调优实战:从开发到生产落地
javascript·ajax·spark
渣渣盟5 天前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
DolphinScheduler社区6 天前
DolphinScheduler 3.3.2 如何调用 DataX 3.0 + SeaTunnel 2.3.12?附 Demo演示!
java·spark·apache·海豚调度·大数据工作流调度
Leo.yuan6 天前
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
大数据·数据仓库·spark
heiqizero6 天前
Spark RDD动作算子
spark