技术栈

流数据

ssxueyi
7 个月前
大数据·流数据·stream·数据湖·流批一体·apache paimon
Paimon 是什么?Apache Paimon简介‌‌Apache Paimon是一个流式数据湖存储项目,旨在将Apache Flink的Streaming实时计算能力和Lakehouse新架构优势结合,促进数据在数据湖上的实时流动,并提供实时离线一体化的开发体验‌‌1。Paimon由Flink社区内部孵化,最初名为Flink Table Store (FTS),于2023年3月进入Apache软件基金会(ASF)的孵化器,并改名为Apache Paimon (incubating)‌。
亿牛云爬虫专家
1 年前
爬虫·ffmpeg·音视频·流数据·爬虫代理·代理ip·解码
FFmpeg 在爬虫中的应用案例:流数据解码详解在大数据时代,网络爬虫技术成为了数据采集的重要手段。FFmpeg 是一个强大的多媒体处理工具,广泛应用于音视频处理领域。在本篇文章中,我们将详细讲解如何将 FFmpeg 应用于网络爬虫技术中,以解码和采集小红书短视频为案例。同时,文章将提供具体的代码示例,包括如何使用代理IP、设置User-Agent和Cookie等技术,提升爬虫的采集成功率。
EMQX
2 年前
物联网·mqtt·kafka·流数据
MQTT 与 Kafka|物联网消息与流数据集成实践MQTT (Message Queuing Telemetry Transport) 是一种轻量级的消息传输协议,专为受限网络环境下的设备通信而设计。Apache Kafka 是一个分布式流处理平台,旨在处理大规模的实时数据流。