近年来，流批一体的技术思想势头火热，即"将批处理和流处理相结合，实现更好的数据处理能力"，已成功从理论层面走进现实世界。Flink 是一款高吞吐量、低延迟的流处理引擎，具备统一接口、高性能、低延迟、容错性和可扩展性等优势，使其成为流批一体场景下的首选。

Flink 作为全球范围内被广泛使用的开源大数据计算引擎，吸引全球多家企业的应用落地。Flink Forward Asia 2023 峰会（以下简称 FFA）将于 12 月 8 - 9 日在北京望京凯悦酒店举办。作为国内规模最大的开源顶级项目技术峰会之一，FFA 致力于集结领先的行业实践与技术动态。

在本次大会上，小红书实时计算引擎团队负责人唐云、小红书数据引擎开发工程师陈宇将分别带来 《小红书在流批一体与近实时数仓上的实践探索之路》 、 《我的 Flink 作业出了什么问题？如何做平台侧的智能诊断》 的主题分享。

小红书如何通过引入 Flink 提升开发效率，如何真正统一流批处理架构？Flink 作业运行时会遇到哪些瓶颈点，我们在开源社区做了哪些工作进行智能诊断？尽在本次大会揭晓！

延续 FFA 惯例，峰会所有议题均为开放征集而来，并由专业的议题评选委员会评分筛选，确保内容代表行业领先水平，为开发者们输出更加优质的干货，并为各企业提供可借鉴的实践经验。

议题介绍

小红书在流批一体与近实时数仓上的实践探索之路

12 月 8 日 14：40-15：20「流批一体」专题

唐云 | 小红书实时计算引擎团队负责人

Apache Flink committer

摘要：

一、Flink 作为流批一体统一接口的引擎（Flink SQL 的统一以及 DataStream API 的统一），小红书引入 Flink 在搜索推荐相关索引数据生成上，利用一套接口完成流式和批示加工的统一，大大提升了开发效率。在 Flink Batch 上积极升级版本 1.17，同时引入 Apache Celeborn，并解决了 Celeborn 在 K8S 环境部署的方式和稳定性问题，提升了 Flink Batch 的性能、稳定性与效能。

二、与小红书数据湖团队合作，利用 Flink CDC 的能力，将 ODS 层实时化，从而提升离线数仓的时效性。

三、在离线数仓的 DWD 层进一步推进近实时化，探索了数据湖 lookup join、left join、partial update 等多种方式加工的差异与特点，实现 mini-Batch join/agg 等机制来尽量降低成本，实现了 Checkpoint 的 state schema evolution 来优化数据的可迁移性，并从理论上分析了离线数仓近实时化背后的核心技术难点问题，以及根据探索经验看好基于 IVM 方式进行增量数仓加工的方式，来打破 lambda 架构，真正统一流批处理架构。

我的 Flink 作业出了什么问题？如何做平台侧的智能诊断

12 月 9 日 16:00-16:40「生产实践」专题

陈宇 | 小红书数据引擎开发工程师

Apache Flink Contributor

摘要：

一、Flink 作业运行的基础原理以及常见的瓶颈点：处理数据慢、Checkpoint 慢、恢复慢等问题。

二、我们在 Flink 开源社区做了哪些工作帮助进行作业诊断：

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开，方便 debug 作业流图信息 FLINK-33230

三、在此基础上，我们在小红书内部做了哪些平台侧工作：

3.1 智能前置检查：SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程，检测 SQL/JAR 任务改动对状态恢复的影响

3.3 智能诊断：反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会，作为最受 Apache Flink 社区开发者期盼的年度峰会之一，Flink Forward Asia 2023 将持续集结行业最佳实践以及 Flink 最新技术动态，是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

‍FFA 2023 官网：‍‌‌‎‎Flink Forward 峰会 - Flink Forward Asia 2023‍‌‌‎‎ ，欢迎前往大会官网预约主论坛直播。‍

FFA 2023 明日开幕，Flink 智能诊断、小红书流批一体实践精彩来袭

议题介绍

小红书在流批一体与近实时数仓上的实践探索之路

我的 Flink 作业出了什么问题？ 如何做平台侧的智能诊断

我的 Flink 作业出了什么问题？如何做平台侧的智能诊断