spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
znhb9925 分钟前
从分治到协同:一体化联合脱硫脱硝的技术逻辑与实践路径
大数据
冯RI375II694872 小时前
机械产品CE-MD认证怎么申请
大数据
淡海水2 小时前
ComfyUI全面掌握-知识点详解——基础示例:文生图与图生图实操(参数+案例)
大数据·人工智能·算法·comfyui
aisifang003 小时前
企业级GPT-Image2实战测评:从生成到生产
大数据·数据库·人工智能
znhb993 小时前
焦化行业超低排放改造案例分析---中煤旭阳
大数据·人工智能
阳艳讲ai4 小时前
中小企业AI项目落地技术指南:常见问题与实施框架
大数据·人工智能·企业ai培训·ai获客·九尾狐ai
爱码小白4 小时前
MySQL运维篇
大数据·数据库·python
VALENIAN瓦伦尼安教学设备5 小时前
填补国内空白!瓦伦尼安发布首台船机机械故障诊断振动实验台
大数据·人工智能·嵌入式硬件
2601_951515955 小时前
护眼照明进入深度洗牌期:书客SUN2如何重塑健康光行业规则?
大数据·人工智能·书客护眼大路灯·爱眼护眼·护眼大路灯
数据皮皮侠AI6 小时前
基于经济学季刊方法测算的中国城市蔓延指数
大数据·人工智能·笔记·数据挖掘·回归