sparksql

PersistJiao1 个月前
sparksql·sql查询优化·静态优化·动态优化
SparkSQL 对 SQL 查询的优化静态优化和动态优化两大部分介绍SparkSQL 对 SQL 查询的优化主要分为 静态优化 和 动态优化 两大部分,其中静态优化主要在查询编译时进行,而动态优化则是在查询执行过程中进行。SparkSQL 的优化包括了多种技术,例如 RBO(基于规则的优化)、CBO(基于成本的优化),以及 AQE(Adaptive Query Execution,适应性查询执行)。这些优化方法和技术可以显著提高查询的性能。
songqq271 个月前
spark·sparksql
Spark中给读取到的数据 的列 重命名的几种方式!目录一、第一种 (withColumnRenamed)二、第二种(toDF)三、第三种( toDF(*tuple1) )
一个散步者的梦6 个月前
数据仓库·hive·hadoop·sparksql
HIVE及SparkSQL优化经验针对高耗跑批时间长的作业,在公司近3个月做过一个优化专项;优化成效:综合cpu、内存、跑批耗时减少均在65%以上;
莫待花无空折枝6 个月前
大数据·hive·sql·sparksql
经典sql问题:1)、每个用户连续登录最大天数2)、连续登录大于三天的用户数分析:本质都是计算用户连续登录天数方案一:利用排序窗口
chde2Wang10 个月前
学习·sparksql·数据读取与存储
SparkSQL学习03-数据读取与存储SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不用格式的数据。SparkSQL默认读取和保存的文件格式为parquet,parquet是一种能够有效存储嵌套数据的列式存储格式。
有语忆语1 年前
dataset·dataframe·sparksql
SparkSQL基础解析(三)Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!