Spark学习基础转换算子案例(单词计数(WordCount))

本案例在文件中读取,上面是文件路径

这是文件内容

代码如下:

java 复制代码
package RDD.test;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class RDD_test_WordCount {

    public static void main(String[] args) {
        SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("sparkcore");

        JavaSparkContext context = new JavaSparkContext(sparkConf);

        JavaRDD<String> rdd = context.textFile("data/word.txt");

        JavaRDD<String> rdd1 = rdd.flatMap(line -> Arrays.asList(line.split(" ")).iterator());

        JavaPairRDD<String, Iterable<String>> stringIterableJavaPairRDD = rdd1.groupBy(num -> num);

        JavaPairRDD<String, Integer> stringIntegerJavaPairRDD = stringIterableJavaPairRDD.mapValues(
                ite -> {
                    int len = 0;
                    for (String s : ite) {
                        len++;
                    }

                    return len;
                }
        );

        stringIntegerJavaPairRDD.collect().forEach(System.out::println);

        context.close();

    }
}

运行结果为:

相关推荐
咖啡八杯7 小时前
GoF设计模式——策略模式
java·后端·spring·设计模式
用户1285261160215 小时前
我把祖传Java项目重构后,接口响应从3s砍到了200ms,只改了这几行代码
java
Linsk15 小时前
组件 = 模板 + 业务逻辑
java·前端·vue.js
星沉远浦16 小时前
用Gemini高效解决Java代码报错难以定位的问题
java
用户2986985301420 小时前
Word 文档字符级格式化:Java 实现方案详解
java·后端
笨鸟飞不快20 小时前
从单个服务到集群:一次完整的性能排查复盘
java·前端
荣码20 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
SamDeepThinking20 小时前
Java微服务练习方式
java·后端·微服务
大大大大晴天20 小时前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
朦胧之1 天前
AI 编程-老项目改造篇
java·前端·后端