数据湖

colorknight3 天前
数据仓库·人工智能·数据治理·数据湖·数据科学·数据编织·自动化治理
数据编织-异构数据存储的自动化治理大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于
想ai抽12 天前
starrocks·doris·数据湖
StarRocks PB 级日增量数据模型优化:注意点、调优策略与风险防控StarRocks 处理每日 PB 级日增量时,核心矛盾是「高吞吐导入」与「低延迟查询」的平衡,需从 数据模型设计、导入链路、存储查询、资源调度、稳定性保障 五维度系统性优化,同时规避增量场景下的典型风险。以下是具体细节:
菜鸟冲锋号18 天前
大数据·flink·数据湖·paimon·多流外键关联
Paimon 流 - 流增量关联(CDC 模式)具体实现方案核心逻辑:两个实时数据流(如订单流 + 支付流)通过 Debezium 捕获 binlog 后,分别以 CDC 模式写入 Paimon 表(Paimon 自动维护数据的 insert/update/delete 一致性),再通过 Flink 的 批查询(全量关联) 和 流查询(增量关联) 实现外键匹配,关联结果可持久化到 Paimon 关联表,供 Doris 等下游直接查询。
wasp52019 天前
java·大数据·linux·hudi·数据湖·数据湖仓
Hudi 元数据管理分析元数据管理是 Hudi 的重要组成部分,它管理表的配置、Schema、分区信息等。理解元数据管理有助于理解表的生命周期和配置管理。
数据游戏21 天前
数据湖·paimon
paimon避坑指南🔍 异常核心原因快照过期:Paimon 表的快照(Snapshot)ID 1691 已被清理,导致 Flink 作业无法读取该快照。
ApacheSeaTunnel1 个月前
数据库·开源·数据湖·技术分享·白鲸开源
(四)收官篇!从分层架构到数据湖仓架构系列:数据服务层和数据应用层及湖仓技术趋势小结《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs1 个月前
apache·数据湖·shuffle·starrocks 4.0·query-ready
StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready导读:StarRocks 4.0 已正式发布!这一版本将优化能力从查询层延伸至数据层,通过全新的 Global Shuffle Ingestion、Spill-Aware Writes、Compaction API 与 Local Sort 等特性,让数据在写入的同时即完成优化。面对 Apache Iceberg 等开放格式中“小文件过多、查询延迟高”的挑战,StarRocks 4.0 将数据仓库级的治理理念引入 Lakehouse 架构,实现了从写入、组织到维护的全链路提速。
ITVV1 个月前
大数据·数据湖·湖仓一体
湖仓一体部署上传安装软件到服务器解压安装:tar -xzvf hadoop-3.4.1.tar.gz -C /opt/module/
黄雪超1 个月前
大数据·架构·数据湖
从流批一体到湖仓一体架构演进的思考大数据起源于 Google 在 2004 年前后发表的三篇论文,即:Lucene 开源项目的创始人 DougCutting 正在开发开源搜索引擎 Nutch,阅读了 Google 的论文后,根据论文原理初步实现了类似 GFS 和 MapReduce 的功能。这也标志着大数据技术从理论走向实践,为后续的大数据生态圈发展奠定了基础。
黄雪超1 个月前
大数据·数据湖·paimon
Paimon——官网阅读:理解文件本文旨在阐明各种文件操作对文件的影响。本页面提供具体示例和实用技巧,以助力有效管理文件。此外,通过深入探讨诸如提交(commit)和压缩(compact)等操作,我们旨在深入解析文件的创建与更新过程。
dundunmm2 个月前
数据仓库·数据湖
【每天一个知识点】数据湖(Data Lake)与数据仓库(Data Warehouse)数据湖(Data Lake)与数据仓库(Data Warehouse)在数据存储、处理和使用上有一些关键的区别。
StarRocks_labs2 个月前
starrocks·人工智能·json·数据湖·存算分离
StarRocks 4.0:Real-Time Intelligence on Lakehouse回顾 StarRocks 的进化之路,每一次大版本迭代都紧扣时代对数据分析的核心诉求。StarRocks 1.x,打造极速查询性能,解决 BI 报表、数据探寻慢的痛点问题。
hzp6662 个月前
人工智能·深度学习·机器学习·大模型·llm·数据湖·大数据存储
Magnus:面向大规模机器学习工作负载的综合数据管理方法Magnus,一个专为解决大规模机器学习(ML)工作负载中数据管理挑战而设计的综合性系统。针对传统数据湖表格式(如Iceberg)在处理海量数据、多模态数据、频繁更新和大模型训练时面临的存储效率低、元数据开销大、读写性能差等问题,Magnus提出了多项创新。其核心包括:为宽表和多模态数据设计的高效Krypton和Blob存储格式;通过消除冗余和索引优化来提升元数据管理效率;支持列级更新和主键Upsert的轻量级MOR机制;以及为大型语言模型(LLM)和长序列推荐模型(LRM) 训练优化的双表设计和分片机制
ApacheSeaTunnel2 个月前
大数据·数据仓库·开源·数据湖·dataops·白鲸开源·底层技术
新兴数据湖仓手册·从分层架构到数据湖仓架构(2025):数据仓库分层的概念与设计《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs3 个月前
starrocks·数据湖·阿里巴巴·paimon·物化视图
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由作者:马龙杰(澄诺) 阿里巴巴中国电商事业群-饿了么-DIC 数据智能中心-数据研发流量组摘要:实时湖仓架构赋能即时零售,在多端流量与亿级营销投入下支撑分钟级决策与体验升级。
黄雪超4 个月前
大数据·spark·数据湖·paimon
Paimon——官网阅读:Spark 引擎Paimon目前支持Spark 3.5、3.4、3.3、3.2和3.1 。为获得更好的体验,我们推荐使用最新的Spark版本。
黄雪超4 个月前
大数据·数据湖·paimon
Paimon——官网阅读:非主键表如果一个表未定义主键,那么它就是一个追加表(append table)。与主键表相比,它不具备直接接收变更日志的能力。无法通过插入更新(upsert)直接用数据更新该表,只能接收追加的数据。
StarRocks_labs5 个月前
数据库·starrocks·数据湖·物化视图·存算分离
StarRocks Community Monthly Newsletter (Jun)存算分离:支持生成列、主键表重建索引;大规模导入逻辑优化,降低小文件数量。数据湖分析:Beta 支持 Iceberg 视图创建与修改;支持 Iceberg REST Catalog 嵌套命名空间;
兰丰岐6 个月前
数据湖·minio·trino·amoro·apache amoro·iceberg rest catalog·iceberg rest
使用minio + iceberg-rest + amoro+ + trino搭建iceberg数据湖架构该架构(MinIO + Iceberg REST Catalog + Amoro + Trino)的设计融合了现代数据湖的核心需求,旨在实现‌存储解耦、计算灵活、管理自动化及高性能查询‌的综合目标。
镜舟科技7 个月前
数据仓库·物联网·ai·数据存储·数据湖·湖仓一体·大数据分析
数据湖和数据仓库的区别在当今数据驱动的时代,企业需要处理和存储海量数据。数据湖与数据仓库作为两种主要的数据存储解决方案,各自有其独特的优势与适用场景。本文将客观详细地介绍数据湖与数据仓库的基本概念、核心区别、应用场景以及未来发展趋势,帮助读者更好地理解和选择适合自身需求的数据存储方案。