技术栈
sparksql
PersistJiao
1 个月前
sparksql
·
sql查询优化
·
静态优化
·
动态优化
SparkSQL 对 SQL 查询的优化静态优化和动态优化两大部分介绍
SparkSQL 对 SQL 查询的优化主要分为 静态优化 和 动态优化 两大部分,其中静态优化主要在查询编译时进行,而动态优化则是在查询执行过程中进行。SparkSQL 的优化包括了多种技术,例如 RBO(基于规则的优化)、CBO(基于成本的优化),以及 AQE(Adaptive Query Execution,适应性查询执行)。这些优化方法和技术可以显著提高查询的性能。
songqq27
1 个月前
spark
·
sparksql
Spark中给读取到的数据 的列 重命名的几种方式!
目录一、第一种 (withColumnRenamed)二、第二种(toDF)三、第三种( toDF(*tuple1) )
一个散步者的梦
6 个月前
数据仓库
·
hive
·
hadoop
·
sparksql
HIVE及SparkSQL优化经验
针对高耗跑批时间长的作业,在公司近3个月做过一个优化专项;优化成效:综合cpu、内存、跑批耗时减少均在65%以上;
莫待花无空折枝
6 个月前
大数据
·
hive
·
sql
·
sparksql
经典sql
问题:1)、每个用户连续登录最大天数2)、连续登录大于三天的用户数分析:本质都是计算用户连续登录天数方案一:利用排序窗口
chde2Wang
10 个月前
学习
·
sparksql
·
数据读取与存储
SparkSQL学习03-数据读取与存储
SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不用格式的数据。SparkSQL默认读取和保存的文件格式为parquet,parquet是一种能够有效存储嵌套数据的列式存储格式。
有语忆语
1 年前
dataset
·
dataframe
·
sparksql
SparkSQL基础解析(三)
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!