9、Flink 流式概念之状态化更新与演化详解

表程序在流模式下执行将被视为标准查询,即它们被定义一次后将被一直视为静态的端到端 (end-to-end) 管道。

对于这种状态化的管道,对查询和Flink的Planner的改动都有可能导致完全不同的执行计划,这让表程序的状态化的升级和演化在目前而言仍具有挑战,社区正致力于改进这一缺点。

例如为了添加过滤谓词,优化器可能决定重排 join 或改变内部算子的 schema,这会阻碍从 savepoint 的恢复,因为其被改变的拓扑和 算子状态的列布局差异。

查询实现者需要确保改变在优化计划前后是兼容的,在 SQL 中使用 EXPLAIN 或在 Table API 中使用 table.explain() 可获取详情。

由于新的优化器规则正不断地被添加,算子变得更加高效和专用,升级到更新的 Flink 版本可能造成不兼容的计划。

当前框架无法保证状态可以从 savepoint 映射到新的算子拓扑上,Savepoint 只在查询语句和版本保持恒定的情况下被支持。

相关推荐
CryptoPP42 分钟前
获取越南股票市场列表(包含VN30成分股)实战指南
大数据·服务器·数据库·区块链
跨境小新43 分钟前
TG弹出“只能给双向联系人发送消息”的飞机双向限制怎么办?
大数据
数智顾问2 小时前
破解 Shuffle 阻塞:Spark RDD 宽窄依赖在实时特征工程中的实战与未来
大数据·分布式·spark
Giser探索家2 小时前
遥感卫星升轨 / 降轨技术解析:对图像光照、对比度的影响及工程化应用
大数据·人工智能·算法·安全·计算机视觉·分类
lisw053 小时前
数字化科技简化移民流程的 5 种方式
大数据·人工智能·机器学习
NewCarRen3 小时前
基于自动驾驶仿真软件的交通事故档案建模与分析
大数据·汽车功能安全
JAVA学习通4 小时前
Replication(下):事务,一致性与共识
大数据·分布式·算法
vivo互联网技术4 小时前
vivo HDFS EC大规模落地实践
大数据·hdfs·大数据计算与存储·erasure coding
api_180079054604 小时前
异步数据采集实践:用 Python/Node.js 构建高并发淘宝商品 API 调用引擎
大数据·开发语言·数据库·数据挖掘·node.js
科研服务器mike_leeso5 小时前
41 年 7 次转型!戴尔从 PC 到 AI 工厂的技术跃迁与组织重构
大数据·人工智能·机器学习