Flink 词频统计

Flink 词频统计

任务描述
本关任务:根据编程要求,完成任务。

编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。

当前共有三个类,分别是 WordCount、WordCountData、WordCountTokenizer;其中 WordCountData 类负责提供词频统计的数据,WordCountTokenizer 类负责对数据进行分词。

请你在 WordCount 中调用这两个类完成词频统计,并打印输出统计结果;

可以切换文件,对其余两个类进行观察。

复制代码
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;

public class WordCount {
    public WordCount(){}
    public static void main(String[] args) throws Exception {
/**************** Begin ****************/

        // 获取当前 Flink 应用程序的执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 使用 WordCountData 中提供的数据
        DataSet<String> text = WordCountData.getDefaultTextLineDataset(env);

        // 调用 WordCountTokenizer 类进行词频统计
        DataSet<Tuple2<String, Integer>> counts = text
                .flatMap(new WordCountTokenizer())
                .groupBy(0)
                .sum(1);

        // 将统计结果打印到控制台
        counts.print();

/**************** End ****************/

    }
}
相关推荐
武子康11 小时前
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
大数据·后端·spark
阿里云大数据AI技术1 天前
大数据公有云市场第一,阿里云占比47%!
大数据
Lx3521 天前
Hadoop容错机制深度解析:保障作业稳定运行
大数据·hadoop
T06205141 天前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔1 天前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗
鸿乃江边鸟2 天前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂2 天前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
java水泥工2 天前
基于Echarts+HTML5可视化数据大屏展示-白茶大数据溯源平台V2
大数据·echarts·html5
广州腾科助你拿下华为认证2 天前
华为考试:HCIE数通考试难度分析
大数据·华为
在未来等你2 天前
Elasticsearch面试精讲 Day 17:查询性能调优实践
大数据·分布式·elasticsearch·搜索引擎·面试