下一代 Lakehouse 智能未来新引擎 | Apache Hudi Meetup亚洲站活动回顾

近日,由京东主办的Apache Hudi Meetup亚洲站在京东集团总部顺利举行,来自Onehouse、京东、快手和华为的四位技术专家齐聚一堂,不仅带来了Apache Hudi 1.1版本前瞻,也分享了各自在数据湖仓建设上的"独门秘籍"。从AI场景的支持,到实时数据处理,再到成本优化,每个话题都直击当下数据工程师最关心的痛点。

Hudi社区领袖远程助阵

首先,Onehouse CEO&创始人、Apache Hudi PMC Chair Vinoth Chandar通过视频为此次活动致开场辞。他表示,经过八年的发展,Hudi已成为数据湖领域的重要基石,其愿景已转化为行业广泛认可的成果。今年发布的1.0版本标志着项目进入成熟阶段,为数据湖仓带来了诸多类数据库功能。目前,社区正稳步推进1.x系列版本,重点提升Flink性能、推出新的Trino连接器,并通过可插拔表格式层增强互操作性。面对数据湖领域的快速发展,Vinoth强调,优秀的技术和稳健的设计才是长期制胜的关键。Hudi现已实现许多商业引擎未能达到的能力,这得益于其低调、聪慧且富有创造力的社区。展望未来,社区将致力于将Hudi打造为支持从BI到AI全场景的存储引擎,探索包括非结构化数据管理、向量搜索等前沿方向。Vinoth特别感谢京东对Apache Hudi的重大贡献,在前100位贡献者中,有6位来自京东。最后,他也邀请更多开发者加入这个充满活力的社区,共同推动数据基础设施的创新与发展。

京东零售数据湖技术挑战与展望

作为活动的联合主办方,京东零售AI Infra & 大数据计算负责人张科在致辞中对参与此次Meetup的嘉宾和观众表示欢迎,同时也指出了当前数据领域面临两大核心挑战:在BI层面,长期存在的"流批一体"难题尚未得到完美解决,导致数据研发人员不得不在多套系统间重复工作,这要求我们必须从根本上重构数据架构,找到统一处理流与批计算的新范式。在AI层面,随着多模态时代的到来,传统仅处理结构化数据的方案已无法满足需求。无论是模型训练的数据供给效率,还是推荐系统的实时特征计算,亦或是大模型所需的知识库构建,都迫切需要一个能统一存储多模态数据、同时兼顾成本与性能的底层支撑。业界正寄望于通过Apache Hudi这样的开源技术,构建一个能够统一承载批处理、流计算、数据分析与AI工作负载的存储底座。

Apache Hudi 1.1 前瞻与AI 原生 Lakehouse 演进

在《Apache Hudi 1.1 前瞻与AI原生Lakehouse演进》议题中,Onehouse数据架构工程师、Apache Hudi PMC核心成员郭一骅(Ethan)分享了Hudi的技术演进路径与未来展望。作为Hudi代码贡献全球第一的开发者,他从项目定位、版本规划到AI原生架构进行了系统阐述。郭一骅指出,Apache Hudi的定位远不止于一个开放表格式,而是构建在云存储之上的embedded、headless、distributed数据库系统。Hudi正从"湖仓上的事务型数据库"朝着"AI原生的Lakehouse平台"方向迈进。在即将发布的1.1版本中,Hudi实现了多项重要突破。其中,可插拔表格式架构有效解决了当前数据湖生态中格式割裂的痛点,使用户能够"一次写入,多格式可读"。与此同时,Hudi对Flink集成进行了深度优化,通过异步生成机制解决了流式写入中的吞吐瓶颈,并构建了全新的原生写入器,实现了从Avro格式到Flink RowData的端到端处理,显著降低了序列化开销与GC压力。实测表明,Hudi 1.1在流式入湖场景中的吞吐性能达到1.0版本的3.5倍。面对AI时代带来的新挑战,Hudi正在积极构建原生AI数据底座。通过支持非结构化数据存储、优化多模态数据的列组结构、内置向量索引能力,并构建支持事务与版本控制的统一存储层,Hudi致力于为AI工作流提供高实时、可追溯、易扩展的数据支撑。这一系列演进将推动Apache Hudi从优秀的数据湖框架,成长为支撑AI时代的核心数据基础设施。

Apache Hudi在京东的最新架构演进

在《Apache Hudi在京东的最新架构演进》议题中,京东实时数据平台负责人韩飞系统介绍了Hudi在京东生产环境中的最新架构演进与落地成果。针对原生MoR表在高吞吐场景下存在的性能瓶颈,京东数据湖团队基于LSM-Tree架构重构了Hudi MoR表的数据组织协议。通过将原有的"Avro + Append"更新模式替换为"Parquet + Create"模式,实现了无锁并发写入能力,并结合Engine-Native数据格式、Remote Partitioner策略以及流式增量Compaction调度机制等一系列优化手段,显著提升了读写性能。Benchmark测试结果显示,MoR-LSM方案的读写性能达到原生MoR-Avro方案的2--10倍,展现出显著的技术优势。面对BI场景日益增长的准实时需求,流式维度打宽逐渐成为多主题域数据处理的共同挑战。传统Flink流式Join存在状态膨胀与维护复杂度高的问题,京东数据湖团队借鉴Hudi PartialUpdate的多流拼接思路,构建了支持主外键映射的索引机制。该机制通过正排与倒排索引协同运作,高效完成流式维度关联与实时更新。同时,引入可插拔的HBase作为索引存储,确保了在点查询场景下的高性能访问能力。在AI场景的探索中,团队设计并实现了Hudi NativeIO SDK。该SDK通过构建数据调用层、跨语言Transformation层、Hudi视图管理层和高性能查询层四大核心模块,打通了样本训练引擎直接基于数据湖表完成训练的端到端流程。京东将上述能力与业务场景深度融合,将其应用于流量数仓ADM层的准实时化改造。经过一系列优化,流量浏览链路的写入吞吐量由每分钟4500万提升至8000万,Compaction执行效率提高一倍,并实现了SKU维度信息的实时一致性维护,完成了从T+1离线修数模式向实时处理模式的全面转型。在推进技术自研的同时,京东也积极回馈开源社区,累计贡献并获合并PR达109项。未来,团队将持续深化Hudi在实时数据湖领域的应用,为业务创新提供更强大的数据支撑能力。

快手实时入湖如何助力BI & AI场景架构升级

在《快手实时入湖如何助力BI & AI场景架构升级》议题中,快手数据架构研发工程师王泽宇介绍了快手基于Apache Hudi构建实时数据湖的完整演进路径与实践经验。针对传统BI数仓场景,快手实现了从Mysql2Hive到Mysql2Hudi2.0的架构升级。通过引入Hudi小时级分区表,支持全量、增量和快照等多种查询模式,并创新性地设计了Full Compact与Minor Compact机制优化数据布局。分桶异构的引入,使得全量分区与增量分区支持不同桶数,大幅降低入湖资源消耗。相比原有架构,新方案天然支持长生命周期,支持更丰富的查询行为,在存储成本降低的同时,实现了数据就绪时间从天级到分钟级的跨越式提升。在AI存储架构层面,快手构建了流批统一的数据湖架构,解决了离线和实时训练数据不一致的核心痛点。通过统一存储介质、支持流批统一消费、逻辑宽表列拼接等能力,实现了训练数据的统一管理与高效复用。基于Event-time timeline的元数据管理机制,既保证了数据的有序性,又通过无锁设计保障了实时写入性能。未来,快手将继续完善数据湖在训练、检索、分析等多场景的服务能力,推动数据湖向更智能、更统一的方向演进。快手的实践充分证明,基于Hudi的实时数据湖架构能够有效支撑起大规模BI与AI场景的现代化升级需求。

Apache Hudi在华为云的深度优化与AI探索

在《Apache Hudi在华为云的深度优化与AI探索》议题中,华为大数据Lakehouse内核研发工程师杨宣分享了华为云基于Apache Hudi构建新一代Lakehouse架构的技术实践与创新突破。面对企业级数据平台在实时性、智能化和管理效率方面的挑战,华为从平台架构、内核优化和生态融合三个维度进行了深度探索。在平台架构层面,华为自研了LDMS统一湖仓管理服务平台,实现了表服务的全托管式运维。该平台通过智能数据布局优化、CBO统计信息收集等核心能力,大幅降低了湖仓平台的运维复杂度,让用户能够更专注于业务逻辑而非底层维护。在内核优化方面,华为对Apache Hudi进行了多项深度改造。通过RFC-84/87实现的去Avro序列化优化,使得Flink写入性能提升1-10倍,同时显著降低了GC压力;创新的LogIndex机制有效解决了对象存储场景下的流读性能瓶颈;动态Schema变更支持使得CDC入湖流程更加灵活;而列簇机制的引入则为千列稀疏宽表的实时化处理提供了可行的解决方案。Hudi Native通过使用Rust重写Parquet读写逻辑、采用Arrow内存格式替代Avro,构建了高性能的IO加速层。通过JNI提供统一的高性能Java读写接口,实现了与Spark、Flink等计算引擎的无缝集成,为未来的性能突破奠定了坚实基础。在生态融合与AI探索方面,华为构建了支持多模态数据的管理架构,通过湖表格式管理非结构化数据的元数据,实际文件存储于对象存储,既保证了ACID特性,又避免了数据冗余。同时集成LanceDB提供高效的向量检索能力,为文档检索、智能问答等AI应用场景提供了完善的数据基础支撑。这次Meetup让我们相信,数据湖仓的星辰大海,离不开开源社区与企业的"众人拾柴"。那些在业务战场上经过淬炼的技术,最终都回馈为滋养整个生态的养分。这或许就是技术最纯粹的浪漫:让复杂的事情变简单,让不可能成为可能。前路充满想象,而我们,正共同塑造着一个更优雅、更强大的数据处理未来。

相关推荐
京东零售技术44 分钟前
NeurIPS 2025 | TANDEM:基于双层优化的数据配比学习方法
后端·算法
zmzb01031 小时前
C++课后习题训练记录Day42
开发语言·c++·算法
CoovallyAIHub1 小时前
MAR-YOLOv9:革新农业检测,YOLOv9的“低调”逆袭
深度学习·算法·计算机视觉
Mr Lee_1 小时前
Smali 文件生成dex装箱算法整合
开发语言·python·算法
LDG_AGI1 小时前
【推荐系统】深度学习训练框架(十三):模型输入——《特征索引》与《特征向量》的边界
人工智能·pytorch·分布式·深度学习·算法·机器学习
CoovallyAIHub1 小时前
如何让SAM3在医学图像上比专用模型还强?一个轻量Adapter如何让它“秒变”专家?
深度学习·算法·计算机视觉
suoge2231 小时前
热传导控制方程有限元弱形式推导-有限元编程入门
算法
希望有朝一日能如愿以偿1 小时前
力扣每日一题:统计梯形的数目
算法·leetcode·职场和发展
碧波bibo2 小时前
【算法突破】【C++】 第一篇 数组
c++·算法