Flink 词频统计

Flink 词频统计

任务描述
本关任务:根据编程要求,完成任务。

编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。

当前共有三个类,分别是 WordCount、WordCountData、WordCountTokenizer;其中 WordCountData 类负责提供词频统计的数据,WordCountTokenizer 类负责对数据进行分词。

请你在 WordCount 中调用这两个类完成词频统计,并打印输出统计结果;

可以切换文件,对其余两个类进行观察。

复制代码
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;

public class WordCount {
    public WordCount(){}
    public static void main(String[] args) throws Exception {
/**************** Begin ****************/

        // 获取当前 Flink 应用程序的执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 使用 WordCountData 中提供的数据
        DataSet<String> text = WordCountData.getDefaultTextLineDataset(env);

        // 调用 WordCountTokenizer 类进行词频统计
        DataSet<Tuple2<String, Integer>> counts = text
                .flatMap(new WordCountTokenizer())
                .groupBy(0)
                .sum(1);

        // 将统计结果打印到控制台
        counts.print();

/**************** End ****************/

    }
}
相关推荐
RoboWizard2 小时前
本地AI主机批量部署 高效存储支撑全场景配置
大数据·人工智能
dingzd952 小时前
产品同质化严重如何用材质升级做出溢价空间
大数据·人工智能·跨境电商·内容营销
@PHARAOH2 小时前
WHAT - AI 时代下的候选人
大数据·前端·人工智能
Data-Miner2 小时前
50页精品PPT | 数据安全运营体系建设方案
大数据·数据分析
weixin_436182423 小时前
PLC 与 DCS 国产化报告获取:工控产业情报查找指南
大数据·人工智能·国产plc
金智维科技官方3 小时前
制造业如何用Ki-AgentS智能体平台实现设备巡检自动化?
大数据·运维·人工智能
志栋智能5 小时前
告别高昂投入:超自动化IT运维的轻量化实践
大数据·运维·网络·人工智能·自动化
腾视科技TENSORTEC5 小时前
腾视科技TS-SG-SM7系列AI算力模组:32TOPS算力引擎,开启边缘智能新纪元
大数据·人工智能·科技·ai·ai算力模组·ai模组·ainas
大黄说说6 小时前
微信小程序制作平台有哪些?
大数据
黎阳之光6 小时前
AI数智筑防线 绿色科技启新篇——黎阳之光硬核技术赋能生态安全双升级
大数据·人工智能·算法·安全·数字孪生