Flink 词频统计

Flink 词频统计

任务描述
本关任务:根据编程要求,完成任务。

编程要求
打开右侧代码文件窗口,在 Begin 至 End 区域补充代码,完成任务。

当前共有三个类,分别是 WordCount、WordCountData、WordCountTokenizer;其中 WordCountData 类负责提供词频统计的数据,WordCountTokenizer 类负责对数据进行分词。

请你在 WordCount 中调用这两个类完成词频统计,并打印输出统计结果;

可以切换文件,对其余两个类进行观察。

复制代码
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;

public class WordCount {
    public WordCount(){}
    public static void main(String[] args) throws Exception {
/**************** Begin ****************/

        // 获取当前 Flink 应用程序的执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 使用 WordCountData 中提供的数据
        DataSet<String> text = WordCountData.getDefaultTextLineDataset(env);

        // 调用 WordCountTokenizer 类进行词频统计
        DataSet<Tuple2<String, Integer>> counts = text
                .flatMap(new WordCountTokenizer())
                .groupBy(0)
                .sum(1);

        // 将统计结果打印到控制台
        counts.print();

/**************** End ****************/

    }
}
相关推荐
璞华Purvar8 分钟前
2025年全国技术贸易创新实践案例:AI编辑助手平台助力“一带一路”数字媒体产业高质量发展
大数据·人工智能·媒体
ThisIsClark10 分钟前
什么是Flink
数据仓库·flink
麓殇⊙29 分钟前
操作系统期末复习--操作系统初识以及进程与线程
java·大数据·数据库
大师兄带你刨AI1 小时前
「AI大数据」| 《华为:面向智能制造的工业大模型标准化研究报告》
大数据·人工智能
Elastic 中国社区官方博客1 小时前
使用 Elasticsearch 提升 Copilot 能力
大数据·数据库·elasticsearch·搜索引擎·全文检索·copilot·mcp
F36_9_2 小时前
如何高效实现公司文件管理
大数据·数据库·人工智能
武子康3 小时前
大数据-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog
大数据·后端·apache hive
白总Server4 小时前
Web 架构之 GraphQL 与 REST API 对比与选型
java·大数据·前端·javascript·后端·架构·graphql
IT技术范4 小时前
2025商旅平台排行:国内主流商旅平台解析
大数据·人工智能
天氰色等烟雨5 小时前
Spring AI 聊天记忆功能实战(二):自定义 Redis 聊天记忆外部存储实现
大数据