技术栈
弹性分布式数据集
夜夜流光相皎洁_小宁
5 个月前
弹性分布式数据集
·
apache spark
·
spark rdd
·
rdd持久化
·
rdd partition分区
Spark 分布式弹性计算集(RDD)相关概念介绍
目录一、概述二、RDD的核心概念2.1 Partition2.2 Partitioner2.3 RDD的依赖关系
Key-Key
1 年前
大数据
·
hadoop
·
分布式
·
面试
·
职场和发展
·
spark
·
弹性分布式数据集
大数据开发之离线数仓项目(用户行为采集平台)(可面试使用)
数据仓库,是为企业指定决策,提供数据支持的,可以帮助企业,改进业务流程、提高产品质量等。 数据仓库的输入数据通常包括:业务数据、用户行为数据和爬虫数据等。 业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在mysql、oracle等数据库中。
Key-Key
1 年前
大数据
·
hadoop
·
分布式
·
spark
·
弹性分布式数据集
大数据开发之Spark(完整版)
回顾:hadoop主要解决,海量数据的存储和海量数据的分析计算。 spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。