spark组件-spark core(批处理)-rdd创建

1. 从集合创建‌

通过 SparkContext.parallelize() 或 makeRDD() 将本地集合(如 List)转换为 RDD,可手动指定分区数:

java 复制代码
List<String> list = Arrays.asList("hello", "hi", "spark", "world", "hi");
JavaRDD<String> javaRDD = sc.parallelize(list, 2);

2. 从外部存储创建‌

支持 HDFS、本地文件系统等数据源,如

java 复制代码
JavaRDD<String> stringRDD = sc.textFile("hdfs://path/file.txt") ‌

3. 从其他 RDD 转换‌

通过转换算子(如 map、groupByKey)生成新 RDD,形成血缘关系链。

例子

java 复制代码
package com.spark.qichsiii.core.a_rdd_create;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;
import java.util.List;

public class RddCreationFromCollection {
    public static void main(String[] args) {
        // 1.创建配置对象
        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("RddCreation");
        // 2.创建sparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);
        // 3.编写代码
        // a.集合创建
        JavaRDD<String> stringRDD = sc.parallelize(Arrays.asList("hello","spark"));
		// b.从外部存储创建
		//JavaRDD<String> stringRDD = sc.textFile("input") ‌
        List<String> collect = stringRDD.collect();

        for(String s: collect){
            System.out.println(s);
        }
        // 4.关闭sc
        sc.stop();
    }
}
相关推荐
逸Y 仙X9 分钟前
文章八:ElasticSearch特殊数据字段类型解读
java·大数据·linux·运维·elasticsearch·搜索引擎
姚青&10 分钟前
Pytest 测试用例并行运行与分布式运行
分布式·测试用例·pytest
专注API从业者17 分钟前
淘宝商品详情 API 的 Webhook 回调机制设计与实现:实现数据主动推送
大数据·前端·数据结构·数据库
逸Y 仙X28 分钟前
文章九:ElasticSearch索引字段常见属性
java·大数据·服务器·数据库·elasticsearch·搜索引擎
历程里程碑41 分钟前
链表--排序链表
大数据·数据结构·算法·elasticsearch·链表·搜索引擎·排序算法
逸Y 仙X43 分钟前
文章十:ElasticSearch索引字段高级属性
java·大数据·elasticsearch·搜索引擎·全文检索
冯RI375II694871 小时前
食品FDA认证:确保食品周边产品安全的标准
大数据
汤姆yu1 小时前
基于python大数据的天气可视化及预测系统
大数据·开发语言·python
statistican_ABin1 小时前
Python数据分析-宝马全球汽车销售数据分析(可视化分析)
大数据·人工智能·数据分析·汽车·数据可视化
ryrhhhh1 小时前
矩阵跃动技术创新:GEO搜索占位+AI智能体双融合,重构企业获客链路
大数据·人工智能