spark Rdd的创建方式

spark rdd的创建方式

spark rdd(弹性分布式数据集)有多种创建方式

简单来说有三种

1.从本地集合创建

val numbers = sc.parallelize(Array(1,2,3,4))

2.从文件系统读取

val testFile = sc.textFile("hdfs://localhost:9000/user/hadoop/data.txt")

3.从现有rdd创建而来

val numbersRDD = sc.parallelize(Array(1,2,3,4,5))

val doubleNumbersRDD = numbersRDD.map(_ * 2)

总的来说 rdd这里指的是分布式数据集

所以创建 都需要来自于其他数据集合

所以其他会有 从数据库 网络源 其他数据源

广播变量或者累加器

这里的rdd指的是分布式数据集 就是数据切片,而计算逻辑,叫做rdd算子。

相关推荐
CyberwayTech1 小时前
赛博威线上营销费用管理:咨询+系统,双轮驱动ROI增长
大数据·人工智能
NOCSAH1 小时前
统好AI:助力企业智改数转的务实实践
大数据·人工智能·统好ai
Sinokap1 小时前
GPT-5.5 上线:OpenAI 把 AI 推向真实办公场景
大数据·人工智能
七颗糖很甜1 小时前
“十五五”气象发展规划:聚焦五大核心任务
大数据·python·算法
科研前沿2 小时前
镜像视界浙江科技有限公司的关键技术突破有哪些?
大数据·人工智能·科技·算法·音视频·空间计算
captain_AIouo2 小时前
聚焦实操赋能,Captain AI系统功能实操指南及价值解读
大数据·人工智能·经验分享·aigc
个微管理2 小时前
小红书新规深度拆解:从被封到破局,2026年矩阵号生存手册
大数据·人工智能·矩阵
2601_956414142 小时前
适合 Reddit 多账号运营的指纹浏览器推荐哪款?
大数据
chaofan9802 小时前
GPT-5.5 深度评测:15项基准测试全优,视觉理解精度跃升 42%
大数据·人工智能·gpt·计算机视觉·api
2301_776045232 小时前
估值和市值的区别(股票与加密资产)
大数据·人工智能