流处理

野老杂谈4 个月前
flink·scala·大数据开发·流处理·编程语言选择
Flink开发语言选择:Java vs Scala,哪种更适合你的项目?欢迎来到我的博客,很高兴能够在这里和您见面!欢迎订阅相关专栏: 工💗重💗hao💗:野老杂谈 ⭐️ 全网最全IT互联网公司面试宝典:收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来:详细讲解AIGC的概念、核心技术、应用领域等内容。 ⭐️ 全流程数据技术实战指南:全面讲解从数据采集到数据可视化的整个过程,掌握构建现代化数据平台和数据仓库的核心技术和方法。 ⭐️ 构建全面的数据指标体系:通过深入的理论解析、详细的实操步骤和丰富的案例分析,为读者提供系统化的指导,帮
archimekai6 个月前
大数据·流处理
Google Vortex流式存储引擎分析作者:archimekai,转载请注明出处 参考文献: Edara, P., Forbesj, J., & Li, B. (2024). Vortex: A Stream-oriented Storage Engine For Big Data Analytics. Companion of the 2024 International Conference on Management of Data, 175–187. https://doi.org/10.1145/3626246.3653396
Laurence10 个月前
flink·流处理·不确定性·确定性
Flink:流上的“不确定性”(Non-Determinism)先明确一下什么叫“确定性”:对于一个“操作”来说,如果每次给它的“输入”不变,操作输出的“结果”也不变,那么这个操作就是“确定性“的。通常,我们认为批处理的操作都是确定的,比如针对一张 clicks 表,假如表中的数据没有变化,无论我们执行多少次 SELECT * FROM clicks 操作,它的结果始终不变。但是,批处理操作并不一定总是“确定性”的,如下的 SQL:
G皮T1 年前
大数据·flink·实时计算·窗口·算子·数据交换·流处理
【大数据】流处理基础概念(一):Dataflow 编程基础、并行流处理Dataflow 程序描述了数据如何在不同操作之间流动。Dataflow 程序通常表示为 有向图。图中 顶点 称为 算子,表示计算;而 边 表示 数据依赖关系。算子是 Dataflow 程序的基本功能单元,它们从输入获取数据对其进行计算,然后产生数据并发往输出,以供后续处理。没有输入端的算子称为 数据源(data sources),没有输出端的算子称为 数据汇(data sinks)。一个 Dataflow 图至少要有一个数据源和一个数据汇。
G皮T1 年前
大数据·flink·pipeline·实时计算·批处理·流处理·流批一体
【大数据】深入浅出 Apache Flink:架构、案例和优势Apache Flink 是一个强大的开源流处理框架,近年来在大数据社区大受欢迎。它允许用户实时处理和分析大量流式数据,使其成为 欺诈检测、股市分析 和 机器学习 等现代应用的理想选择。
共饮一杯无1 年前
java·开发语言·流处理
Java流处理之序列化和打印流Java 提供了一种对象序列化的机制。用一个字节序列可以表示一个对象,该字节序列包含该对象的数据、对象的类型和对象中存储的属性等信息。字节序列写出到文件之后,相当于文件中持久保存了一个对象的信息。 反之,该字节序列还可以从文件中读取回来,重构对象,对它进行反序列化。对象的数据、对象的类型和对象中存储的数据信息,都可以用来在内存中创建对象。看图理解序列化: