FFA 2023 明日开幕,Flink 智能诊断、小红书流批一体实践精彩来袭

近年来,流批一体的技术思想势头火热,即"将批处理和流处理相结合,实现更好的数据处理能力",已成功从理论层面走进现实世界。Flink 是一款高吞吐量、低延迟的流处理引擎,具备统一接口、高性能、低延迟、容错性和可扩展性等优势,使其成为流批一体场景下的首选。

Flink 作为全球范围内被广泛使用的开源大数据计算引擎,吸引全球多家企业的应用落地。Flink Forward Asia 2023 峰会(以下简称 FFA)将于 12 月 8 - 9 日在北京望京凯悦酒店举办。作为国内规模最大的开源顶级项目技术峰会之一,FFA 致力于集结领先的行业实践与技术动态。

在本次大会上,小红书实时计算引擎团队负责人唐云 、小红书数据引擎开发工程师陈宇 将分别带来 《小红书在流批一体与近实时数仓上的实践探索之路》《我的 Flink 作业出了什么问题?如何做平台侧的智能诊断》 的主题分享。

小红书如何通过引入 Flink 提升开发效率,如何真正统一流批处理架构?Flink 作业运行时会遇到哪些瓶颈点,我们在开源社区做了哪些工作进行智能诊断?尽在本次大会揭晓!

延续 FFA 惯例,峰会所有议题均为开放征集而来,并由专业的议题评选委员会评分筛选,确保内容代表行业领先水平,为开发者们输出更加优质的干货,并为各企业提供可借鉴的实践经验。

议题介绍

小红书在流批一体与近实时数仓上的实践探索之路

12 月 8 日 14:40-15:20「流批一体」专题

唐云 | 小红书实时计算引擎团队负责人

Apache Flink committer

摘要:

一、Flink 作为流批一体统一接口的引擎(Flink SQL 的统一以及 DataStream API 的统一),小红书引入 Flink 在搜索推荐相关索引数据生成上,利用一套接口完成流式和批示加工的统一,大大提升了开发效率。在 Flink Batch 上积极升级版本 1.17,同时引入 Apache Celeborn,并解决了 Celeborn 在 K8S 环境部署的方式和稳定性问题,提升了 Flink Batch 的性能、稳定性与效能。

二、与小红书数据湖团队合作,利用 Flink CDC 的能力,将 ODS 层实时化,从而提升离线数仓的时效性。

三、在离线数仓的 DWD 层进一步推进近实时化,探索了数据湖 lookup join、left join、partial update 等多种方式加工的差异与特点,实现 mini-Batch join/agg 等机制来尽量降低成本,实现了 Checkpoint 的 state schema evolution 来优化数据的可迁移性,并从理论上分析了离线数仓近实时化背后的核心技术难点问题,以及根据探索经验看好基于 IVM 方式进行增量数仓加工的方式,来打破 lambda 架构,真正统一流批处理架构。

12 月 9 日 16:00-16:40「生产实践」专题

陈宇 | 小红书数据引擎开发工程师

Apache Flink Contributor

摘要:

一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题。

二、我们在 Flink 开源社区做了哪些工作帮助进行作业诊断:

2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375

2.2 Flink 调试交互上的若干优化 FLINK-29995

2.3 流图展开,方便 debug 作业流图信息 FLINK-33230

三、在此基础上,我们在小红书内部做了哪些平台侧工作:

3.1 智能前置检查:SQL 语法检测、connetor 检测

3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢 复的影响

3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测

Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,Flink Forward Asia 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。

‍FFA 2023 官网:‍​​‌​‌​‎‎Flink Forward 峰会 - Flink Forward Asia 2023‍​​‌​‌​‎‎ ,欢迎前往大会官网预约主论坛直播。‍

相关推荐
逸Y 仙X28 分钟前
Git常见命令--助力开发
java·大数据·git·java-ee·github·idea
caihuayuan41 小时前
PHP建立MySQL持久化连接(长连接)及mysql与mysqli扩展的区别
java·大数据·sql·spring
B站计算机毕业设计超人1 小时前
计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·爬虫·机器学习·课程设计·数据可视化·推荐算法
WeiLai11122 小时前
面试基础--微服务架构:如何拆分微服务、数据一致性、服务调用
java·分布式·后端·微服务·中间件·面试·架构
(; ̄ェ ̄)。2 小时前
在nodejs中使用ElasticSearch(二)核心概念,应用
大数据·elasticsearch·搜索引擎
一个儒雅随和的男子3 小时前
Elasticsearch除了用作查找以外,还能可以做什么?
大数据·elasticsearch·搜索引擎
Sui_Network3 小时前
Sui 如何支持各种类型的 Web3 游戏
大数据·数据库·人工智能·游戏·web3·区块链
菜鸟一枚在这3 小时前
深入剖析抽象工厂模式:设计模式中的架构利器
设计模式·架构·抽象工厂模式
ZKNOW甄知科技3 小时前
IT服务运营管理体系的常用方法论与实践指南(上)
大数据·数据库·人工智能
Swift社区3 小时前
【微服务优化】ELK日志聚合与查询性能提升实战指南
spring·elk·微服务·云原生·架构