Flink keyBy算子的分区规则

demo代码

复制代码
String worlds = "flink,spark,hadoop,zk,kafka";

streamSource.flatMap(new RichFlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> collector) throws Exception {
                String[] worlds = value.split(",");
                for (String world : worlds) {
                    collector.collect(world);
                }
            }
        }).keyBy(new KeySelector<String, String>() {
            @Override
            public String getKey(String key) throws Exception {
                return key;
            }
        }).process(new KeyedProcessFunction<String, String, String>() {
            @Override
            public void processElement(String key,KeyedProcessFunction<String, String, String>.Context ctx,Collector<String> out) throws Exception {
                out.collect(key);
            }
        }).print("->");

        env.execute();

运行结果:

源码查看

我们进去keyBy算子,看看计算逻辑是怎样的:


根据调用逻辑,我们抽象出分区数据的计算逻辑:

复制代码
(MathUtils.murmurHash(key.hashCode()) % maxParallelism) * parallelism / maxParallelism ;

其中:

  • maxParallelism:默认128
  • parallelism:并行度数
  • key:分区键

验证

我们把抽出来的逻辑加到计算结果中查看

复制代码
process(new KeyedProcessFunction<String, String, String>() {
            @Override
            public void processElement(String key,
                                       KeyedProcessFunction<String, String, String>.Context ctx,
                                       Collector<String> out) throws Exception {
                String currentKey = ctx.getCurrentKey();
                int i = (MathUtils.murmurHash(key.hashCode()) % 128) * parallelism / 128 ;
                out.collect(key + "_" +i);
                out.collect(key);
            }

处理结果:

相关推荐
m0_466525291 分钟前
东软添翼AI 2.0获评医疗健康标杆AI Agent TOP10
大数据·人工智能
光算科技18 分钟前
AI重写工具导致‘文本湍流’特征|如何人工消除算法识别标记
大数据·人工智能·算法
geoqiye1 小时前
2026官方认证:贵阳宠物行业短视频运营TOP5评测
大数据·python·宠物
Elastic 中国社区官方博客2 小时前
JINA AI 与 Elasticsearch 的集成
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
TOWE technology2 小时前
聚焦价值 重塑增长
大数据·人工智能·企业
2502_911679143 小时前
精准与稳定的基石:Agilent 66311B,为移动通信测试量身定制的核心供电单元
大数据·网络·5g·信息与通信·信号处理
亚远景aspice3 小时前
亚远景-满足ASPICE要求的配置管理(SUP.8)与变更管理策略
大数据·网络·安全·汽车
深眸财经3 小时前
繁荣与崩塌,2026国产美妆站上「十字路口」
大数据·网络
zhang_xiaoyu583 小时前
国联股份董事、高级副总裁王挺一行赴宣城国控集团参观考察并签署战略合作协议
大数据·人工智能·物联网
老贾专利烩3 小时前
多技术融合难点:智能生发专利的协同稳定性研究
大数据·人工智能