paimon

StarRocks_labs5 天前
大数据·flink·湖仓一体·paimon·lakehouse
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索作者:王沛斌@饿了么小编导读:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:
乙真仙人1 个月前
大数据·apache·paimon·实时湖仓
Apache Paimon:开启实时湖仓存储新时代在当今数字化浪潮汹涌澎湃的时代,数据已成为企业最为宝贵的资产之一。如何高效地处理、存储和利用这些海量数据,成为了企业在激烈竞争中脱颖而出的关键。而在数据处理的广阔领域中,Apache Paimon 宛如一颗冉冉升起的新星,以其强大的功能和创新的技术,为实时湖仓存储带来了全新的变革。
Apache Flink1 个月前
大数据·flink·实时计算·湖仓一体·paimon
Apache Paimon V0.9最新进展摘要:本文整理自 Paimon PMC Chair 李劲松老师在 8 月 3 日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分享 Apache Paimon V0.9 的最新进展以及遇到的一些挑战。
StarRocks_labs2 个月前
大数据·数据库·数据分析·flink·数据湖·湖仓一体·paimon
StarRocks Lakehouse 快速入门——Apache PaimonStarRocks Lakehouse 快速入门指南为您提供了湖仓技术概览,旨在帮助您迅速掌握其核心特性、独特优势和应用场景。本指南将指导您如何高效地利用 StarRocks 构建解决方案。文章末尾,我们集合了来自阿里云、饿了么、喜马拉雅和同程旅行等行业领导者在 StarRocks x Paimon Streaming Lakehouse 活动中的实战经验分享。通过这些真实案例,您可以更直观地了解如何在实际应用中发挥 StarRocks Lakehouse 的最佳效用。希望这些实践能启发您在自己的项目中应
Apache Flink3 个月前
大数据·flink·paimon
Apache Paimon 在蚂蚁的应用摘要 :本文整理自 Apache Paimon Committer 闵文俊老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享。内容主要分为以下四个部分:
Norris Huang3 个月前
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
Apache Flink3 个月前
大数据·阿里云·flink·paimon
Flink+Paimon在阿里云大数据云原生运维数仓的实践随着大数据产品云原生化的推进,云原生集群的规模和数量都在增加,云原生集群的运维难度也在不断增加,云原生集群的资源审计、资源拓扑、资源趋势的需要就比较迫切。云原生集群的资源审计主要是 node 资源、pod 资源,如当前集群的 node 数量以及Pod 数量;资源拓扑主要构建用户->实例->pod->node->集群的关联关系,例如一个公有云用户,提供给运维团队可以通过 uid 查询到用户实例以及实例所在的节点/集群信息。资源趋势是整个团队所管理的集群资源使用趋势,pod 数量趋势、node 数量趋势、以及
Light Gao3 个月前
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
从数据仓库到数据湖(下):热门的数据湖开源框架在上一篇从数据仓库到数据湖(上):数据湖导论文章中,我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架,并分享笔者对当前数据湖技术的理解和看法。
Apache Flink3 个月前
大数据·flink·apache·paimon
探索 Apache Paimon 在阿里智能引擎的应用场景摘要:本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。内容主要分为以下三个部分:
一切如来心秘密6 个月前
大数据·数据湖·paimon
数据湖技术选型——Flink+Paimon 方向对比读写性能和对流批一体的支持情况,建议选择Apache Paimon 截止2024年1月12日数据湖四大开源项目特性如下:
流月up7 个月前
大数据·flink·yarn·ogg·paimon
flink on yarn paimonogg kafka paimon前置准备请看如下文章目标:ogg数据通过 flink 写入 paimon至此结束。
流月up7 个月前
spark·paimon·kyuubi·1.8.x
kyuubi整合spark on yarn目标:注意:版本 kyuubi 1.8.0 、 spark 3.4.2 、hadoop 3.3.6前置准备请看如下文章
又见阿郎9 个月前
数据湖·paimon
聊聊流式数据湖Paimon(四)通过不同的流写不同的字段,打宽了数据的维度,填充了数据内容;如下所示:Paimon中的表被多流填充数据且打宽维度后,支持流读、批读的方式提供完整的Changelog给下游。
又见阿郎9 个月前
数据湖·paimon·append only
聊聊流式数据湖Paimon(三)如果表没有定义主键,则默认情况下它是仅追加 表类型(Append Only Table)。 根据桶(Bucket)的定义,我们有两种不同的仅追加模式:"Append For Scalable Table"和"Append For Queue";两种模式支持不同的场景,提供不同的功能。 只能向表中插入一条完整的记录。 不支持删除或更新,并且不能定义主键。 此类表适合 不需要更新的用例(例如日志数据同步)。
又见阿郎9 个月前
数据湖·paimon
聊聊流式数据湖Paimon(二)Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture) 数据的入湖;CDC 数据来自数据库。一般来说,分析需求是不会直接查询数据库的。
又见阿郎9 个月前
数据湖·paimon
聊聊流式数据湖Paimon(一)翻译自 Apache Paimon官方文档Apache Paimon (incubating) 是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。
血染河山10 个月前
paimon·data-lake
理解 Paimon changelog producer目的Chaneglog producer 的主要目的是为了在 Paimon 表上产生流读的 changelog, 所以如果只是批读的表是可以不用设置 Chaneglog producer 的. 一般对于数据库如 MySQL 来说, 当执行的语句涉及数据的修改例如插入、更新、删除时,MySQL 会将这些数据变动记录在 binlog 中。相当于额外记录一份操作日志, 类似于 Paimon 中的 input changelog producer 的模式
鸿乃江边鸟10 个月前
大数据·spark·paimon
Spark Paimon 中为什么我指定的分区没有下推最近在使用 Paimon 的时候遇到了一件很有意思的事情,写的 SQL 居然读取的数据不下推,明明是分区表,但是却全量扫描了。 目前使用的版本信息如下: Spark 3.5.0 Paimon 0.6.0 paimon的建表语句如下:
流月up10 个月前
大数据·hive·flink·paimon·kyuubi
kyuubi整合flink yarn session modeflink 版本 1.17.1、kyuubi 1.8.0、hive 3.1.3、paimon 0.5整合过程中,需要注意对应的版本。
hf20001210 个月前
flink·apache·doris·paimon
Apache Doris 整合 FLINK CDC 、Paimon 构建实时湖仓一体的联邦查询入门多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。