数据湖

zhangkaixuan4562 天前
java·算法·数据湖·lsm-tree·paimon
Paimon Split 机制深度解析📌 重要提示:本文档已更新为 v2.0,系统性地区分了主键表和非主键表的 Split 生成策略。建议先阅读《Paimon 主键表 vs 非主键表核心差异》了解基础概念。
阿华田5127 天前
数据湖·paimon·数据湖建设
paimon实战-- 基于hive-catalog搭建paimon计算与存储环境Apache Paimon 作为新一代 流批一体数据湖存储,在实时写入、近实时更新、主键表等场景下表现突出。相比 Iceberg / Hudi,Paimon 更偏向 Streaming-first 的设计,非常适合实时数仓与湖仓融合架构。
wasp5208 天前
数据库·spark·hudi·数据湖
Hudi Spark 集成分析Hudi 与 Spark 的集成主要通过 Spark DataSource API 实现,让 Spark 能够读写 Hudi 表。理解 Spark 集成有助于理解如何在 Spark 中使用 Hudi。
阿坤带你走近大数据15 天前
大数据·数据湖·湖仓一体
数据湖的构建实施方法论构建数据湖(Data Lake) 是现代企业实现数据集中化、支持 AI/BI/实时分析的关键基础设施。与传统数据仓库不同,数据湖以低成本、高扩展性、多格式支持为核心优势,但若设计不当,极易沦为“数据沼泽”(Data Swamp)——数据混乱、不可信、难使用。
StarRocks_labs1 个月前
starrocks·数据湖·dataops·dbt·etl 框架
dbt+DataOps+StarRocks:构建一体化数据治理与智能分析平台实践作者:胡翔,SJM Resorts 企业方案设计高级经理、dbt- starrocksContributor
数据与后端架构提升之路1 个月前
数据湖·mlops·vla·流批一体·世界模型·自动驾驶数据闭环·occupancy
2025:把“大模型”写进“数据闭环”——从自动驾驶到具身机器人,我如何用数据与算法做可落地的智能系统关键词:数据湖 / 流批一体 / MLOps / 自动驾驶数据闭环 / Occupancy / VLA / 世界模型 / 小模型本地推理 / 可靠性
colorknight1 个月前
数据仓库·人工智能·数据治理·数据湖·数据科学·数据编织·自动化治理
数据编织-异构数据存储的自动化治理大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于
想ai抽2 个月前
starrocks·doris·数据湖
StarRocks PB 级日增量数据模型优化:注意点、调优策略与风险防控StarRocks 处理每日 PB 级日增量时,核心矛盾是「高吞吐导入」与「低延迟查询」的平衡,需从 数据模型设计、导入链路、存储查询、资源调度、稳定性保障 五维度系统性优化,同时规避增量场景下的典型风险。以下是具体细节:
菜鸟冲锋号2 个月前
大数据·flink·数据湖·paimon·多流外键关联
Paimon 流 - 流增量关联(CDC 模式)具体实现方案核心逻辑:两个实时数据流(如订单流 + 支付流)通过 Debezium 捕获 binlog 后,分别以 CDC 模式写入 Paimon 表(Paimon 自动维护数据的 insert/update/delete 一致性),再通过 Flink 的 批查询(全量关联) 和 流查询(增量关联) 实现外键匹配,关联结果可持久化到 Paimon 关联表,供 Doris 等下游直接查询。
wasp5202 个月前
java·大数据·linux·hudi·数据湖·数据湖仓
Hudi 元数据管理分析元数据管理是 Hudi 的重要组成部分,它管理表的配置、Schema、分区信息等。理解元数据管理有助于理解表的生命周期和配置管理。
数据游戏2 个月前
数据湖·paimon
paimon避坑指南🔍 异常核心原因快照过期:Paimon 表的快照(Snapshot)ID 1691 已被清理,导致 Flink 作业无法读取该快照。
ApacheSeaTunnel2 个月前
数据库·开源·数据湖·技术分享·白鲸开源
(四)收官篇!从分层架构到数据湖仓架构系列:数据服务层和数据应用层及湖仓技术趋势小结《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs2 个月前
apache·数据湖·shuffle·starrocks 4.0·query-ready
StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready导读:StarRocks 4.0 已正式发布!这一版本将优化能力从查询层延伸至数据层,通过全新的 Global Shuffle Ingestion、Spill-Aware Writes、Compaction API 与 Local Sort 等特性,让数据在写入的同时即完成优化。面对 Apache Iceberg 等开放格式中“小文件过多、查询延迟高”的挑战,StarRocks 4.0 将数据仓库级的治理理念引入 Lakehouse 架构,实现了从写入、组织到维护的全链路提速。
ITVV3 个月前
大数据·数据湖·湖仓一体
湖仓一体部署上传安装软件到服务器解压安装:tar -xzvf hadoop-3.4.1.tar.gz -C /opt/module/
黄雪超3 个月前
大数据·架构·数据湖
从流批一体到湖仓一体架构演进的思考大数据起源于 Google 在 2004 年前后发表的三篇论文,即:Lucene 开源项目的创始人 DougCutting 正在开发开源搜索引擎 Nutch,阅读了 Google 的论文后,根据论文原理初步实现了类似 GFS 和 MapReduce 的功能。这也标志着大数据技术从理论走向实践,为后续的大数据生态圈发展奠定了基础。
黄雪超3 个月前
大数据·数据湖·paimon
Paimon——官网阅读:理解文件本文旨在阐明各种文件操作对文件的影响。本页面提供具体示例和实用技巧,以助力有效管理文件。此外,通过深入探讨诸如提交(commit)和压缩(compact)等操作,我们旨在深入解析文件的创建与更新过程。
dundunmm3 个月前
数据仓库·数据湖
【每天一个知识点】数据湖(Data Lake)与数据仓库(Data Warehouse)数据湖(Data Lake)与数据仓库(Data Warehouse)在数据存储、处理和使用上有一些关键的区别。
StarRocks_labs3 个月前
starrocks·人工智能·json·数据湖·存算分离
StarRocks 4.0:Real-Time Intelligence on Lakehouse回顾 StarRocks 的进化之路,每一次大版本迭代都紧扣时代对数据分析的核心诉求。StarRocks 1.x,打造极速查询性能,解决 BI 报表、数据探寻慢的痛点问题。
hzp6663 个月前
人工智能·深度学习·机器学习·大模型·llm·数据湖·大数据存储
Magnus:面向大规模机器学习工作负载的综合数据管理方法Magnus,一个专为解决大规模机器学习(ML)工作负载中数据管理挑战而设计的综合性系统。针对传统数据湖表格式(如Iceberg)在处理海量数据、多模态数据、频繁更新和大模型训练时面临的存储效率低、元数据开销大、读写性能差等问题,Magnus提出了多项创新。其核心包括:为宽表和多模态数据设计的高效Krypton和Blob存储格式;通过消除冗余和索引优化来提升元数据管理效率;支持列级更新和主键Upsert的轻量级MOR机制;以及为大型语言模型(LLM)和长序列推荐模型(LRM) 训练优化的双表设计和分片机制