9、Flink 流式概念之状态化更新与演化详解

表程序在流模式下执行将被视为标准查询,即它们被定义一次后将被一直视为静态的端到端 (end-to-end) 管道。

对于这种状态化的管道,对查询和Flink的Planner的改动都有可能导致完全不同的执行计划,这让表程序的状态化的升级和演化在目前而言仍具有挑战,社区正致力于改进这一缺点。

例如为了添加过滤谓词,优化器可能决定重排 join 或改变内部算子的 schema,这会阻碍从 savepoint 的恢复,因为其被改变的拓扑和 算子状态的列布局差异。

查询实现者需要确保改变在优化计划前后是兼容的,在 SQL 中使用 EXPLAIN 或在 Table API 中使用 table.explain() 可获取详情。

由于新的优化器规则正不断地被添加,算子变得更加高效和专用,升级到更新的 Flink 版本可能造成不兼容的计划。

当前框架无法保证状态可以从 savepoint 映射到新的算子拓扑上,Savepoint 只在查询语句和版本保持恒定的情况下被支持。

相关推荐
清水白石00814 分钟前
《解锁 Python 潜能:从内存模型看可变与不可变对象,及其实战最佳实践》
大数据·开发语言·python
爱吃糖的z26 分钟前
Elasticsearch Percolate Query使用优化案例-从2000到500ms
大数据·elasticsearch·搜索引擎
Hello.Reader28 分钟前
Apache Flink 2.2.0 源码编译从环境准备到 PyFlink 打包一次讲清
大数据·flink·apache
黑客说33 分钟前
独领无限流赛道:白日梦科技,重新定义AI时代的互动娱乐标杆
大数据·人工智能
综合热讯42 分钟前
同健梦社区计划正式发布!
大数据
武子康1 小时前
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查
大数据·后端·apache hive
APO Research1 小时前
Virtual Commissioning产业趋势:数字孪生驱动的虚拟调试如何重塑工业自动化工程体系
大数据·自动化·智能制造·数字孪生·工业自动化·工程数字化
悢七1 小时前
flink-yarn提交任务,application无限次appattempt
flink·yarn
言午说数据1 小时前
数仓入门篇-数仓分层
大数据·面试
IPHWT 零软网络1 小时前
让前厅更高效,让服务更暖心——HWT2.0酒店话务台,重构宾客体验新范式
大数据·重构