Flink 词频统计

Flink 词频统计

任务描述
本关任务:根据编程要求,完成任务。

编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。

当前共有三个类,分别是 WordCount、WordCountData、WordCountTokenizer;其中 WordCountData 类负责提供词频统计的数据,WordCountTokenizer 类负责对数据进行分词。

请你在 WordCount 中调用这两个类完成词频统计,并打印输出统计结果;

可以切换文件,对其余两个类进行观察。

复制代码
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;

public class WordCount {
    public WordCount(){}
    public static void main(String[] args) throws Exception {
/**************** Begin ****************/

        // 获取当前 Flink 应用程序的执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 使用 WordCountData 中提供的数据
        DataSet<String> text = WordCountData.getDefaultTextLineDataset(env);

        // 调用 WordCountTokenizer 类进行词频统计
        DataSet<Tuple2<String, Integer>> counts = text
                .flatMap(new WordCountTokenizer())
                .groupBy(0)
                .sum(1);

        // 将统计结果打印到控制台
        counts.print();

/**************** End ****************/

    }
}
相关推荐
暴躁小师兄数据学院9 小时前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
挨踢诗人9 小时前
领星ERP集成金蝶云星空
大数据·信息可视化
andafaAPS9 小时前
安达发|汽车零部件行业aps生产排程:人工排产之困到智能调度之变
大数据·人工智能·汽车·aps生产排程·计划排产软件·自动排单软件
Promise微笑9 小时前
精准微阻测量:微欧计的分类、场景应用与高效选型决策指南
大数据·运维·网络·人工智能
QiLinkOS9 小时前
QiLink开源生态的三维重构:基于时间、空间与社会价值的底层规则创新白皮书
大数据·c++·人工智能·科技·算法·gitee·开源
qq_436962189 小时前
从“技术稀缺”到“人人可用”:奥威BI+AI如何复刻工业革命级变革
大数据·人工智能
运维小欣9 小时前
2026年AI 可观测平台选型指南
大数据·人工智能
数智化精益手记局9 小时前
拆解项目管理平台核心功能:看项目管理平台如何解决跨部门协作难题与多项目并行场景
大数据·运维·数据库·人工智能·产品运营
精益数智小屋9 小时前
拆解项目管理计划的核心功能:用项目管理计划解决跨部门协作难题
大数据·人工智能·数据分析·云计算·软件工程
抛砖者10 小时前
flink打包方式问题
大数据·flink