Spark学习基础转换算子案例(单词计数(WordCount))

本案例在文件中读取,上面是文件路径

这是文件内容

代码如下:

java 复制代码
package RDD.test;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class RDD_test_WordCount {

    public static void main(String[] args) {
        SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("sparkcore");

        JavaSparkContext context = new JavaSparkContext(sparkConf);

        JavaRDD<String> rdd = context.textFile("data/word.txt");

        JavaRDD<String> rdd1 = rdd.flatMap(line -> Arrays.asList(line.split(" ")).iterator());

        JavaPairRDD<String, Iterable<String>> stringIterableJavaPairRDD = rdd1.groupBy(num -> num);

        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = stringIterableJavaPairRDD.mapValues(
                ite -> {
                    int len = 0;
                    for (String s : ite) {
                        len++;
                    }

                    return len;
                }
        );

        stringIntegerJavaPairRDD.collect().forEach(System.out::println);

        context.close();

    }
}

运行结果为:

相关推荐
夏日听雨眠1 小时前
Linux(信号,管道,共享内存)
java·服务器·网络
TANGLONG2221 小时前
【C++】继承详解——基类/派生类、作用域、默认函数、菱形继承(超详细)
java·c语言·c++·经验分享·笔记·ajax
zmsofts1 小时前
IntelliJ IDEA)因为内存不足而崩溃
java·ide·intellij-idea
Dlrb12111 小时前
C语言-字符串指针与函数指针
java·c语言·前端
Vwms1 小时前
2026年电商行业WMS系统选型指南
大数据·人工智能·产品运营
萝卜白菜。2 小时前
通过cmdline-jmxclient.jar采集TongWeb8.0监控值
java·jar
最后一支迷迭香2 小时前
苹果的MacOS系统适合做Java开发吗
java·开发语言·macos
m0_739030002 小时前
[特殊字符] Java 高频面试题汇总
java·开发语言·面试
白宇横流学长2 小时前
基于Spring Boot的校园考勤管理系统的设计与实现
java·spring boot·后端