技术栈
sparksql
一个散步者的梦
5 个月前
数据仓库
·
hive
·
hadoop
·
sparksql
HIVE及SparkSQL优化经验
针对高耗跑批时间长的作业,在公司近3个月做过一个优化专项;优化成效:综合cpu、内存、跑批耗时减少均在65%以上;
莫待花无空折枝
5 个月前
大数据
·
hive
·
sql
·
sparksql
经典sql
问题:1)、每个用户连续登录最大天数2)、连续登录大于三天的用户数分析:本质都是计算用户连续登录天数方案一:利用排序窗口
chde2Wang
8 个月前
学习
·
sparksql
·
数据读取与存储
SparkSQL学习03-数据读取与存储
SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API,根据不同的参数读取和保存不用格式的数据。SparkSQL默认读取和保存的文件格式为parquet,parquet是一种能够有效存储嵌套数据的列式存储格式。
有语忆语
10 个月前
dataset
·
dataframe
·
sparksql
SparkSQL基础解析(三)
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!