Spark-SQL编程

  1. Spark-SQL连接Hive

连接方式概述:Spark SQL编译时可选择包含Hive支持,包含后能支持Hive表访问、UDF、HQL等功能,且无需事先安装Hive。连接方式有内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline及代码操作。

具体连接方式

内嵌Hive:使用时无需额外操作,但实际生产中很少使用。

外部Hive:在spark-shell中连接外部Hive,需拷贝hive-site.xml到conf/目录并修改连接地址,将MySQL驱动拷贝到jars/目录,拷贝core-site.xml和hdfs-site.xml到conf/目录,最后重启spark-shell。

Spark beeline:Spark Thrift Server兼容HiveServer2,可使用hive的beeline访问。连接步骤与连接外部Hive类似,还需启动Thrift Server,再用beeline连接。

Spark-SQL CLI:可在本地运行Hive元数据服务并执行查询任务。将mysql驱动和hive-site.xml分别放入jars/和conf/目录,运行bin/目录下的spark-sql.cmd即可。

代码操作Hive:导入spark-hive_2.12和hive-exec依赖,将hive-site.xml拷贝到项目resources目录。代码中创建SparkSession时启用Hive支持,可执行Hive相关操作。若出现权限问题,可设置HADOOP_USER_NAME解决;还可通过配置spark.sql.warehouse.dir指定数据库仓库地址。

  1. 统计有效数据条数及用户数量最多的前二十个地址

实验内容:利用Spark-SQL统计有效数据(uid、phone、addr字段均无空值)条数,并找出用户数量最多的前二十个地址。

数据处理思路:数据为json格式,需用get_json_object函数转换格式后分析处理。

代码示例(Scala)

scala

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.functions.get_json_object

object SparkSQLExperiment {

def main(args: ArrayString): Unit = {

val spark = SparkSession.builder()

.appName("SparkSQLExperiment")

.master("local\*")

.getOrCreate()

// 读取json数据

val df = spark.read.json("path/to/your/json/data.json")

// 提取字段并过滤有效数据

val validData = df.select(

get_json_object("value", ".uid").alias("uid"),

get_json_object("value", ".phone").alias("phone"),

get_json_object("value", ".addr").alias("addr")

).filter("uid".isNotNull \&\& "phone".isNotNull && $"addr".isNotNull)

// 统计有效数据条数

val validDataCount = validData.count()

println(s"有效数据条数: $validDataCount")

// 按地址分组统计用户数量并取前二十

val top20Addrs = validData.groupBy("addr").count().orderBy($"count".desc).limit(20)

top20Addrs.show()

spark.stop()

}

}

相关推荐
ACP广源盛139246256738 小时前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽11 小时前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo15 小时前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567315 小时前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark
ACP广源盛139246256731 天前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
ACP广源盛139246256731 天前
IX6012 PCIe 交换芯片@ACP#RTX Spark 入门级 12 口存储外设扩展方案(对比 ASM1812)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
暴躁小师兄数据学院2 天前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
木心术13 天前
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。
大数据·分布式·spark
KaMeidebaby3 天前
卡梅德生物技术快报|纳米抗体表达:分子生物学实操指南:噬菌体筛选与纳米抗体表达全流程技术拆解
大数据·人工智能·架构·spark·新浪微博
Nefu_lyh4 天前
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型
hive·spark·mapreduce