数据湖

数据游戏1 小时前
数据湖·paimon
paimon避坑指南🔍 异常核心原因快照过期:Paimon 表的快照(Snapshot)ID 1691 已被清理,导致 Flink 作业无法读取该快照。
ApacheSeaTunnel12 天前
数据库·开源·数据湖·技术分享·白鲸开源
(四)收官篇!从分层架构到数据湖仓架构系列:数据服务层和数据应用层及湖仓技术趋势小结《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs15 天前
apache·数据湖·shuffle·starrocks 4.0·query-ready
StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready导读:StarRocks 4.0 已正式发布!这一版本将优化能力从查询层延伸至数据层,通过全新的 Global Shuffle Ingestion、Spill-Aware Writes、Compaction API 与 Local Sort 等特性,让数据在写入的同时即完成优化。面对 Apache Iceberg 等开放格式中“小文件过多、查询延迟高”的挑战,StarRocks 4.0 将数据仓库级的治理理念引入 Lakehouse 架构,实现了从写入、组织到维护的全链路提速。
ITVV17 天前
大数据·数据湖·湖仓一体
湖仓一体部署上传安装软件到服务器解压安装:tar -xzvf hadoop-3.4.1.tar.gz -C /opt/module/
黄雪超19 天前
大数据·架构·数据湖
从流批一体到湖仓一体架构演进的思考大数据起源于 Google 在 2004 年前后发表的三篇论文,即:Lucene 开源项目的创始人 DougCutting 正在开发开源搜索引擎 Nutch,阅读了 Google 的论文后,根据论文原理初步实现了类似 GFS 和 MapReduce 的功能。这也标志着大数据技术从理论走向实践,为后续的大数据生态圈发展奠定了基础。
黄雪超21 天前
大数据·数据湖·paimon
Paimon——官网阅读:理解文件本文旨在阐明各种文件操作对文件的影响。本页面提供具体示例和实用技巧,以助力有效管理文件。此外,通过深入探讨诸如提交(commit)和压缩(compact)等操作,我们旨在深入解析文件的创建与更新过程。
dundunmm1 个月前
数据仓库·数据湖
【每天一个知识点】数据湖(Data Lake)与数据仓库(Data Warehouse)数据湖(Data Lake)与数据仓库(Data Warehouse)在数据存储、处理和使用上有一些关键的区别。
StarRocks_labs1 个月前
starrocks·人工智能·json·数据湖·存算分离
StarRocks 4.0:Real-Time Intelligence on Lakehouse回顾 StarRocks 的进化之路,每一次大版本迭代都紧扣时代对数据分析的核心诉求。StarRocks 1.x,打造极速查询性能,解决 BI 报表、数据探寻慢的痛点问题。
hzp6661 个月前
人工智能·深度学习·机器学习·大模型·llm·数据湖·大数据存储
Magnus:面向大规模机器学习工作负载的综合数据管理方法Magnus,一个专为解决大规模机器学习(ML)工作负载中数据管理挑战而设计的综合性系统。针对传统数据湖表格式(如Iceberg)在处理海量数据、多模态数据、频繁更新和大模型训练时面临的存储效率低、元数据开销大、读写性能差等问题,Magnus提出了多项创新。其核心包括:为宽表和多模态数据设计的高效Krypton和Blob存储格式;通过消除冗余和索引优化来提升元数据管理效率;支持列级更新和主键Upsert的轻量级MOR机制;以及为大型语言模型(LLM)和长序列推荐模型(LRM) 训练优化的双表设计和分片机制
ApacheSeaTunnel2 个月前
大数据·数据仓库·开源·数据湖·dataops·白鲸开源·底层技术
新兴数据湖仓手册·从分层架构到数据湖仓架构(2025):数据仓库分层的概念与设计《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs3 个月前
starrocks·数据湖·阿里巴巴·paimon·物化视图
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由作者:马龙杰(澄诺) 阿里巴巴中国电商事业群-饿了么-DIC 数据智能中心-数据研发流量组摘要:实时湖仓架构赋能即时零售,在多端流量与亿级营销投入下支撑分钟级决策与体验升级。
黄雪超3 个月前
大数据·spark·数据湖·paimon
Paimon——官网阅读:Spark 引擎Paimon目前支持Spark 3.5、3.4、3.3、3.2和3.1 。为获得更好的体验,我们推荐使用最新的Spark版本。
黄雪超3 个月前
大数据·数据湖·paimon
Paimon——官网阅读:非主键表如果一个表未定义主键,那么它就是一个追加表(append table)。与主键表相比,它不具备直接接收变更日志的能力。无法通过插入更新(upsert)直接用数据更新该表,只能接收追加的数据。
StarRocks_labs5 个月前
数据库·starrocks·数据湖·物化视图·存算分离
StarRocks Community Monthly Newsletter (Jun)存算分离:支持生成列、主键表重建索引;大规模导入逻辑优化,降低小文件数量。数据湖分析:Beta 支持 Iceberg 视图创建与修改;支持 Iceberg REST Catalog 嵌套命名空间;
兰丰岐5 个月前
数据湖·minio·trino·amoro·apache amoro·iceberg rest catalog·iceberg rest
使用minio + iceberg-rest + amoro+ + trino搭建iceberg数据湖架构该架构(MinIO + Iceberg REST Catalog + Amoro + Trino)的设计融合了现代数据湖的核心需求,旨在实现‌存储解耦、计算灵活、管理自动化及高性能查询‌的综合目标。
镜舟科技6 个月前
数据仓库·物联网·ai·数据存储·数据湖·湖仓一体·大数据分析
数据湖和数据仓库的区别在当今数据驱动的时代,企业需要处理和存储海量数据。数据湖与数据仓库作为两种主要的数据存储解决方案,各自有其独特的优势与适用场景。本文将客观详细地介绍数据湖与数据仓库的基本概念、核心区别、应用场景以及未来发展趋势,帮助读者更好地理解和选择适合自身需求的数据存储方案。
镜舟科技7 个月前
starrocks·数据仓库·数据湖·大数据平台·湖仓一体·物化视图·流式湖仓
大数据平台与数据仓库的核心差异是什么?随着数据量呈指数级增长,企业面临着如何有效管理、存储和分析这些数据的挑战。 大数据平台和 数据仓库作为两种主流的数据管理工具,常常让企业在选型时感到困惑,它们之间的界限似乎越来越模糊,功能也有所重叠。本文旨在厘清这两种技术的核心差异,并为企业提供一个实用的选型参考框架。
chat2tomorrow7 个月前
大数据·数据仓库·低代码·架构·数据湖·sql2api
数据仓库 vs 数据湖:架构、应用场景与技术差异全解析目录一、概念对比:结构化 vs 全类型数据二、技术架构对比1. 数据仓库架构特点2. 数据湖架构特点三、典型应用场景
宝哥大数据7 个月前
大数据·数据仓库·数据湖
数据中台、数据湖和数据仓库 区别
dundunmm8 个月前
实时计算·数据湖·数据·大数据处理
【每日一个知识点】分布式数据湖与实时计算在现代数据架构中,分布式数据湖(Distributed Data Lake) 结合 实时计算(Real-time Computing) 已成为大数据处理的核心模式。数据湖用于存储海量的结构化和非结构化数据,而实时计算则确保数据能够被迅速处理和分析,以支持业务决策、流式数据分析和机器学习应用。