Flink 词频统计

Flink 词频统计

任务描述
本关任务:根据编程要求,完成任务。

编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。

当前共有三个类,分别是 WordCount、WordCountData、WordCountTokenizer;其中 WordCountData 类负责提供词频统计的数据,WordCountTokenizer 类负责对数据进行分词。

请你在 WordCount 中调用这两个类完成词频统计,并打印输出统计结果;

可以切换文件,对其余两个类进行观察。

复制代码
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;

public class WordCount {
    public WordCount(){}
    public static void main(String[] args) throws Exception {
/**************** Begin ****************/

        // 获取当前 Flink 应用程序的执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 使用 WordCountData 中提供的数据
        DataSet<String> text = WordCountData.getDefaultTextLineDataset(env);

        // 调用 WordCountTokenizer 类进行词频统计
        DataSet<Tuple2<String, Integer>> counts = text
                .flatMap(new WordCountTokenizer())
                .groupBy(0)
                .sum(1);

        // 将统计结果打印到控制台
        counts.print();

/**************** End ****************/

    }
}
相关推荐
笨蛋少年派13 小时前
Flume数据采集工具简介
大数据
梦里不知身是客1113 小时前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
小C80613 小时前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据
西格电力科技15 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
beijingliushao16 小时前
105-Spark之Standalone HA环境搭建过程
大数据·spark
五阿哥永琪17 小时前
Git 开发常用命令速查手册
大数据·git·elasticsearch
数字会议深科技17 小时前
深科技 | 高端会议室效率升级指南:无纸化会议系统的演进与价值
大数据·人工智能·会议系统·无纸化·会议系统品牌·综合型系统集成商·会议室
容智信息17 小时前
容智Report Agent智能体驱动财务自动化,从核算迈向价值创造
大数据·运维·人工智能·自然语言处理·自动化·政务
神算大模型APi--天枢64618 小时前
全栈自主可控:国产算力平台重塑大模型后端开发与部署生态
大数据·前端·人工智能·架构·硬件架构