spark组件-spark core(批处理)-rdd创建

1. 从集合创建‌

通过 SparkContext.parallelize() 或 makeRDD() 将本地集合(如 List)转换为 RDD,可手动指定分区数:

java 复制代码
List<String> list = Arrays.asList("hello", "hi", "spark", "world", "hi");
JavaRDD<String> javaRDD = sc.parallelize(list, 2);

2. 从外部存储创建‌

支持 HDFS、本地文件系统等数据源,如

java 复制代码
JavaRDD<String> stringRDD = sc.textFile("hdfs://path/file.txt") ‌

3. 从其他 RDD 转换‌

通过转换算子(如 map、groupByKey)生成新 RDD,形成血缘关系链。

例子

java 复制代码
package com.spark.qichsiii.core.a_rdd_create;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;
import java.util.List;

public class RddCreationFromCollection {
    public static void main(String[] args) {
        // 1.创建配置对象
        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("RddCreation");
        // 2.创建sparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);
        // 3.编写代码
        // a.集合创建
        JavaRDD<String> stringRDD = sc.parallelize(Arrays.asList("hello","spark"));
		// b.从外部存储创建
		//JavaRDD<String> stringRDD = sc.textFile("input") ‌
        List<String> collect = stringRDD.collect();

        for(String s: collect){
            System.out.println(s);
        }
        // 4.关闭sc
        sc.stop();
    }
}
相关推荐
2601_957786772 分钟前
企业矩阵系统的实践与内容协同价值分析
大数据·人工智能·内容协同·数字化获客
captain_AIouo9 分钟前
全域电商流量竞争白热化,autoAGC AI助商家破局增收
大数据·人工智能·经验分享·aigc
二等饼干~za89866814 分钟前
geo优化源码开发搭建技术分享
大数据·网络·数据库·人工智能·音视频
Elastic 中国社区官方博客1 小时前
Elastic 线下 Meetup 将于 2026 年 7 月 26 号下午在深圳举行
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
weixin_468466851 小时前
千问大模型在阿里生态中的实战应用指南
大数据·人工智能·深度学习·ai·大模型·智能交互·自动应答
三十..1 小时前
Ceph分布式存储核心技术精要与运维实践指南
运维·分布式·ceph
诗词在线1 小时前
谷歌算法优化与专业内容构建策略
大数据
Elastic 中国社区官方博客2 小时前
Elasticsearch 如何通过 synthetic _id 和 Bloom filters 将时序存储降低 34%
大数据·数据库·elasticsearch·搜索引擎·serverless·全文检索·时序数据库
LONGZETECH2 小时前
架构师实战拆解|无人机智慧实训SaaS中台:断电续考、AI组卷、多端同步核心设计
大数据·人工智能·架构·系统架构·无人机
jkyy20142 小时前
大模型重构饮食健康服务链路:多维技术赋能膳食管理智能化升级
大数据·人工智能·信息可视化·重构·健康医疗