流计算

Florian1 天前
flink·流计算·图计算·geaflow
Graph4Stream:基于图的流计算加速作者:汪煜之前在「姊妹篇」《Stream4Graph:动态图上的增量计算》中,向大家介绍了在图计算技术中引入增量计算能力「图+流」,GeaFlow流图计算相比Spark GraphX取得了显著的性能提升。那么在流计算技术中引入图计算能力「流+图」,GeaFlow流图计算相比Flink关联计算性能如何呢?
Florian1 个月前
流计算·图计算·tugraph·geaflow
Stream4Graph:动态图上的增量计算作者:张奇众所周知,当我们需要对数据做关联性分析的时候,一般会采用表连接(SQL join)的方式完成。但是SQL join时的笛卡尔积计算需要维护大量的中间结果,从而对整体的数据分析性能带来巨大影响。相比而言,基于图的方式维护数据的关联性,原本的关联性分析可以转换为图上的遍历操作,从而大幅降低数据分析的成本。
shandongwill1 年前
java·大数据·flink·流计算
Flink状态存储-StateBackendFlink是一个流处理框架,它需要对数据流进行状态管理以支持复杂的计算逻辑。在Flink中,状态存储是指如何和在哪里存储这些状态数据。Flink提供了多种状态后端(State Backend)来实现这种存储,以满足不同的应用场景和性能需求。 StateBackend需要具备如下两种能力: 1、在计算过程中提供访问 State 的能力,开发者在编写业务逻辑中能够使用 StateBackend 的接口读写数据。 2、能够将 State 持久化到外部存储,提供容错能力。 根据使用场景的不同, Flink 内置了
G皮T2 年前
大数据·分布式·flink·内存管理·分布式计算·流计算·资源管理
【大数据】Flink 详解(五):核心篇 Ⅳ45、Flink 广播机制了解吗?从图中可以理解 广播 就是一个公共的共享变量,广播变量存于 TaskManager 的内存中,所以广播变量不应该太大,将一个数据集广播后,不同的 Task 都可以在节点上获取到,每个节点只存一份。 如果不使用广播,每一个 Task 都会拷贝一份数据集,造成内存资源浪费。
G皮T2 年前
大数据·flink·分布式计算·流计算·状态管理
【大数据】Flink 详解(二):核心篇 Ⅱ22、刚才提到 State,那你简单说一下什么是 State。