Spark-SQL(三)

一. 数据加载与保存

1. 数据加载:

spark.read.load 是加载数据的通用方法。

spark.read.format("...")[.option("...")].load("...")

1)format("..."):指定加载的数据类型。

2)load("..."):格式下需要传入加载数据的路径。

3)option("..."):在"jdbc"格式下需要传入 JDBC 相应参数。如:url、user、password 和 dbtable

2. 保存数据

df.write.save 是保存数据的通用方法。

df.write.format("...")[.option("...")].save("...")

format("..."):指定保存的数据类型

save ("..."):格式下需要传入保存数据的路径。

option("..."):在"jdbc"格式下需要传入 JDBC 相应参数,如:url、user、password 和 dbtable

保存操作可以使用 SaveMode, 用来指明如何处理数据,使用 mode()方法来设置

Parquet

Spark SQL 的默认数据源为 Parquet 格式。Parquet 是一种能够有效存储嵌套数据的列式

存储格式。数据源为 Parquet 文件时,Spark SQL 可以方便的执行所有的操作,不需要使用 format。修改配置项 spark.sql.sources.default,可修改默认数据源格式。

JSON

Spark SQL 能够自动推测 JSON 数据集的结构,并将它加载为一个 Dataset[Row]. 可以通过 SparkSession.read.json()去加载 JSON 文件。注意: Spark 读取的 JSON 文件不是传统的 JSON 文件,每一行都应该是一个 JSON 串

CSV

Spark SQL 可以配置 CSV 文件的列表信息,读取 CSV 文件,CSV 文件的第一行设置为数据列。

3. MySQL

Spark-SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame,通过对

DataFrame 一系列的计算后,还可以将数据再写回关系型数据库中。

IDEA通过JDBC对MySQL进行操作:

  1. 在pop.xml中导入依赖

2)读取数据

通过load读取有两种方式

方式一:

案例演示

读取结果

方式二:

案例演示

读取结果

通过JDBC读取数据

读取结果

3)写入数据

案例演示

运行成功

可以看到数据已经写入

二 Spark-SQl连接hive

1. 在虚拟机中下载以下文件

2.修改hive-site.xml文件

3. 将在虚拟机下载的文件放到conf目录下

4. mysql驱动复制到jars目录下

  1. 重启spark-shell验证命令

三 在idea中操作Hive

1)导入依赖

2)将hive-site.xml 文件拷贝到项目的 resources 目录中

案例演示

运行结果

相关推荐
计算机编程小央姐2 小时前
【Spark+Hive+hadoop】基于spark+hadoop基于大数据的人口普查收入数据分析与可视化系统
大数据·hadoop·数据挖掘·数据分析·spark·课程设计
歪歪1006 小时前
如何在SQLite中实现事务处理?
java·开发语言·jvm·数据库·sql·sqlite
博睿谷IT99_8 小时前
SQL SELECT 语句怎么用?COMPANY 表查询案例(含条件 / 模糊 / 分页)
数据库·sql·mysql
没有bug.的程序员8 小时前
SQL 执行计划解析:从 EXPLAIN 到性能优化的完整指南
java·数据库·sql·性能优化·explain·执行计划
小心草里有鬼9 小时前
Linux 数据库 Mysql8 主从复制
linux·运维·数据库·sql·mysql
笨蛋少年派10 小时前
SQL查询基础常用攻略
sql
boy快快长大10 小时前
@Transactional 事务注解
数据库·sql·oracle
计算机毕设残哥12 小时前
【Spark+Hive+hadoop】人类健康生活方式数据分析
大数据·hive·hadoop·python·数据分析·spark·dash
TDengine (老段)17 小时前
TDengine 聚合函数 ELAPSED 用户手册
java·大数据·数据库·sql·物联网·时序数据库·tdengine
小志开发1 天前
SQL从入门到起飞:完整学习数据库与100+练习题
数据库·sql·学习·mysql·oracle·sqlserver·navcat