流处理

archimekai15 天前
大数据·流处理
Google Vortex流式存储引擎分析作者:archimekai,转载请注明出处 参考文献: Edara, P., Forbesj, J., & Li, B. (2024). Vortex: A Stream-oriented Storage Engine For Big Data Analytics. Companion of the 2024 International Conference on Management of Data, 175–187. https://doi.org/10.1145/3626246.3653396
Laurence4 个月前
flink·流处理·不确定性·确定性
Flink:流上的“不确定性”(Non-Determinism)先明确一下什么叫“确定性”:对于一个“操作”来说,如果每次给它的“输入”不变,操作输出的“结果”也不变,那么这个操作就是“确定性“的。通常,我们认为批处理的操作都是确定的,比如针对一张 clicks 表,假如表中的数据没有变化,无论我们执行多少次 SELECT * FROM clicks 操作,它的结果始终不变。但是,批处理操作并不一定总是“确定性”的,如下的 SQL:
G皮T6 个月前
大数据·flink·实时计算·窗口·算子·数据交换·流处理
【大数据】流处理基础概念(一):Dataflow 编程基础、并行流处理Dataflow 程序描述了数据如何在不同操作之间流动。Dataflow 程序通常表示为 有向图。图中 顶点 称为 算子,表示计算;而 边 表示 数据依赖关系。算子是 Dataflow 程序的基本功能单元,它们从输入获取数据对其进行计算,然后产生数据并发往输出,以供后续处理。没有输入端的算子称为 数据源(data sources),没有输出端的算子称为 数据汇(data sinks)。一个 Dataflow 图至少要有一个数据源和一个数据汇。
G皮T6 个月前
大数据·flink·pipeline·实时计算·批处理·流处理·流批一体
【大数据】深入浅出 Apache Flink:架构、案例和优势Apache Flink 是一个强大的开源流处理框架,近年来在大数据社区大受欢迎。它允许用户实时处理和分析大量流式数据,使其成为 欺诈检测、股市分析 和 机器学习 等现代应用的理想选择。
共饮一杯无7 个月前
java·开发语言·流处理
Java流处理之序列化和打印流Java 提供了一种对象序列化的机制。用一个字节序列可以表示一个对象,该字节序列包含该对象的数据、对象的类型和对象中存储的属性等信息。字节序列写出到文件之后,相当于文件中持久保存了一个对象的信息。 反之,该字节序列还可以从文件中读取回来,重构对象,对它进行反序列化。对象的数据、对象的类型和对象中存储的数据信息,都可以用来在内存中创建对象。看图理解序列化: