hudi

大大大大晴天️4 天前
大数据·flink·hudi
Hudi 生产问题排障-乱序Upsert入湖数据丢失在大数据流式处理领域,乱序一直是一个无法越过的问题,如何正确处理乱序数据也是流式组件不断努力优化的方向,比如FLink提供的watermark机制(forBoundedOutOfOrderness/allowedLateness/sideOutputLateData)也是应对数据延迟乱序的设计。
大大大大晴天️9 天前
大数据·flink·hudi
Flink-Hudi技术实践:Upsert场景开发实践之前写了一篇Flink实时场景下Hudi-Insert开发实践的文章,主要讲述纯插入操作场景下的技术原理与配置实践。然而,Upsert能力才是Hudi实现数据湖准实时数据更新的一大利器,Hudi凭借其Upsert(Update+Insert)能力,高效处理数据的插入、更新与删除操作,并保证基于主键的数据唯一性和一致性。今天聚焦在Hudi-Upsert操作场景,介绍Upsert模式的的技术原理、适用场景、关键参数与最佳实践,提供一套可落地的开发实践参考。
大大大大晴天️14 天前
大数据·flink·hudi
Flink-Hudi技术实践:Insert场景开发实践Hudi提供了两种核心表类型:写时复制表(COW)与读时合并表(MOR)。前者仅使用列式存储格式(Parquet)存储数据,即使只更新少量记录,也可能需要重写整个文件,导致写放大,适用于读多写少的场景(读负载高);后者使用列存+行存格式(Parquet+Avro)存储数据,更新操作以追加方式写入轻量级的日志文件,适用于写多读少的场景(写负载高)。
RestCloud1 个月前
数据仓库·etl·hudi·数据同步·数据集成平台
ETL与数据湖Hudi的集成与操作随着企业数据规模的爆发式增长,传统的数据仓库架构已难以满足业务对实时性和灵活性的需求。Apache Hudi作为新一代流式数据湖框架,将流处理的能力引入数据湖,实现了批流一体的数据管理范式。
wasp5202 个月前
java·开发语言·人工智能·hudi
Hudi 客户端实现分析Hudi 提供了三种客户端实现:Spark、Flink 和 Java。理解客户端实现有助于理解不同引擎下的写入机制。
wasp5203 个月前
数据库·spark·hudi·数据湖
Hudi Spark 集成分析Hudi 与 Spark 的集成主要通过 Spark DataSource API 实现,让 Spark 能够读写 Hudi 表。理解 Spark 集成有助于理解如何在 Spark 中使用 Hudi。
wasp5204 个月前
java·大数据·linux·hudi·数据湖·数据湖仓
Hudi 元数据管理分析元数据管理是 Hudi 的重要组成部分,它管理表的配置、Schema、分区信息等。理解元数据管理有助于理解表的生命周期和配置管理。
wasp5204 个月前
数据挖掘·apache·hudi·数据湖仓
Apache Hudi 项目总体分析请关注微信公众号:阿呆-botApache Hudi 采用多模块 Maven 架构,主要模块如下:入口类:
TTBIGDATA1 年前
大数据·hadoop·ambari·hudi·bigtop·湖仓·自定义组件集成
如何将 Apache Hudi 接入 Ambari?完整部署与验证指南近期我已完成 Apache Hudi 在 Ambari 体系下的服务集成,支持一键安装、全节点 CLI 部署、组件生命周期托管,标志着 Hudi 在大数据平台体系中的可控性进一步增强。
小涵1 年前
大数据·数据库·分布式·阿里云·架构·iceberg·hudi
【分布式】冰山(Iceberg)与哈迪(Hudi)对比的基准测试推荐超级课程:分布式系统行业正迅速向表格式(TableFormats)和湖仓架构(Lakehouse Architecture)靠拢,以实现数据湖(Data Lakes)的现代化。
向阳12181 年前
doris·hudi
使用 Doris 和 Hudi作为一种全新的开放式的数据管理架构,湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求,在企业的大数据体系中已经得到越来越多的应用。
王百万_1 年前
数据治理·hudi·湖仓一体·ddl·华为mrs·create table
【Hudi-SQL DDL创建表语法】命令功能CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。命令格式参数描述
_Magic1 年前
flink·hudi
HUDI-0.11.0 BUCKET index on Flink 特性试用在 0.10.1 版本下,使用默认的 index(FLINK_STATE),在 upsert 模式下,几十亿级别的数据更新会消耗大量内存,并且检查点(checkpoint)时间过长。因此,切换到 0.11.0 的 BUCKET 索引。
upward3372 年前
大数据·笔记·spark·hudi·数据湖
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【Hudi概述、Hudi编译安装】
Norris Huang2 年前
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
SelectDB技术团队2 年前
大数据·doris·hudi·湖仓一体·lakehouse
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)作者:SelectDB 技术团队导读:湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门,我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Iceberg、Paimon、OSS、Delta Lake、Kudu、BigQ
Light Gao2 年前
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
从数据仓库到数据湖(下):热门的数据湖开源框架在上一篇从数据仓库到数据湖(上):数据湖导论文章中,我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架,并分享笔者对当前数据湖技术的理解和看法。
TaiKuLaHa2 年前
hudi
【Hudi】核心概念https://www.bilibili.com/video/BV1ue4y1i7na?p=17&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf 大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)