数据湖

不吃天鹅肉4 天前
大数据·数据湖
数据湖Delta Lake 初试在现有 Hive 3.x + Spark 3.x + YARN 的集群中,我们希望引入 Delta Lake 作为数据湖的事务存储层,以解决 Hive ACID 表与 Spark 之间的兼容性问题(尤其是 Spark 无法直接读取 Hive ACID 托管表)。要求:不影响现有 Hive 服务,无需重启 HDFS 或 YARN。
阿坤带你走近大数据10 天前
flink·数据湖·paimon
Paimon相关概念的介绍Apache Paimon(原名 Flink Table Store)是专为 流批一体 设计的下一代数据湖存储格式。它不仅仅是一个文件格式,更是一个完整的 Streaming Data Lake Platform。
递归尽头是星辰11 天前
数据湖·乐观锁·mvcc·分布式架构·多版本控制
不同架构层级下的多版本设计:从业务设计到微服务与大数据层多版本控制是分布式系统中用于解决并发冲突、数据一致性、服务兼容与变更可追溯的通用架构模式。本文以 MySQL InnoDB MVCC 为基础,按数据库内核、业务设计、微服务、大数据、运维发布五个层级展开,给出各层级多版本控制的实现机制、工程约束与选型依据,构建从原理到落地的完整技术体系。
XSKY星辰天合17 天前
数据湖·对象存储·分布式存储
从“能存下”到“训得动”:XSKY XEOS 支撑头部 AI 实验室建设 EB 级数据湖大模型规模化训练正加速推动 AI 数据湖突破规模临界点,也让企业和科研机构陷入一个核心困境:数据湖“能存下”不难,“存得统一、用得高效”却愈发艰难。
hf2000122 个月前
大数据·spark·数据湖·湖仓一体·lakehouse
深入分析:Iceberg v3「删除向量(Deletion Vectors, DV)」如何缓解 CDC 场景写放大CDC(Change Data Capture)入湖常见形态是持续 UPDATE/DELETE/INSERT(尤其 Upsert)。在“不可变数据文件(Parquet/ORC)+ 表格式元数据”的体系里,写放大主要来自三层:
hf2000122 个月前
大数据·spark·数据湖·湖仓一体·lakehouse
Apache Iceberg vs Apache Paimon :数据湖表格式深度对比与选型指南在数据湖表格式的演进中,Apache Iceberg 和 Apache Paimon 走出了两条截然不同但又殊途同归的路线:
Henb9292 个月前
数据湖
# Iceberg 数据湖实战系列: 新技术实战系列 难度: ⭐⭐⭐⭐⭐ 适合人群: 5 年 + 大数据工程师、数据平台架构师 前置知识: Hadoop 生态、数据仓库概念、Spark/Flink
hf2000123 个月前
架构·数据湖·湖仓一体·lakehouse
美团 x 云器|从美团BI平台升级看数据引擎架构升级演进路径导读本周,美团基础研发平台发布了《美团 BI 在指标平台和分析引擎上的探索和实践》一文,详细披露了其BI平台基于云器Lakehouse的引擎升级探索与实践。作为国内头部互联网公司的核心数据基础设施,美团的这一技术选型与实践经验,对于整个行业具有较高的参考价值。
ApacheSeaTunnel3 个月前
数据库·数据仓库·数据湖·白鲸开源
(三)ODS/明细层落地设计要点:把数据接入层打造成“稳定可运维”的基础设施在现代数据仓库架构中,ODS(Operational Data Store,操作型数据存储层)承担着承接业务系统数据、保持最细粒度事实、并为后续数据建模提供稳定输入的关键角色。它既是数据进入数仓体系的第一站,也是数据质量与可追溯能力的第一道防线。
Light604 个月前
大数据·数据仓库·数据湖·ipaas·湖仓一体·数据中台·领码 spark
不止于名:领码 SPARK 如何“链”动数据仓库、数据湖、中台与湖仓一体新纪元本文旨在深度剖析商业融合平台“领码 SPARK”与现代企业数据领域五大核心架构——数据仓库、大数据平台、数据湖、数据中台、湖仓一体之间的深层关系。报告首先厘清了“领码 SPARK”与开源计算引擎 Apache Spark 的本质区别,明确其作为“iPaaS+aPaaS”双引擎融合平台的定位。随后,文章系统梳理了五大架构的演进脉络与核心价值,并在此基础上,通过详尽的场景分析和架构解构,论证了领码 SPARK 如何作为“数据动脉”、“智能管家”、“服务化引擎”和“AI 加速器”,无缝集成并赋能这五种架构。本文
zhangkaixuan4564 个月前
java·算法·数据湖·lsm-tree·paimon
Paimon Split 机制深度解析📌 重要提示:本文档已更新为 v2.0,系统性地区分了主键表和非主键表的 Split 生成策略。建议先阅读《Paimon 主键表 vs 非主键表核心差异》了解基础概念。
阿华田5125 个月前
数据湖·paimon·数据湖建设
paimon实战-- 基于hive-catalog搭建paimon计算与存储环境Apache Paimon 作为新一代 流批一体数据湖存储,在实时写入、近实时更新、主键表等场景下表现突出。相比 Iceberg / Hudi,Paimon 更偏向 Streaming-first 的设计,非常适合实时数仓与湖仓融合架构。
wasp5205 个月前
数据库·spark·hudi·数据湖
Hudi Spark 集成分析Hudi 与 Spark 的集成主要通过 Spark DataSource API 实现,让 Spark 能够读写 Hudi 表。理解 Spark 集成有助于理解如何在 Spark 中使用 Hudi。
阿坤带你走近大数据5 个月前
大数据·数据湖·湖仓一体
数据湖的构建实施方法论构建数据湖(Data Lake) 是现代企业实现数据集中化、支持 AI/BI/实时分析的关键基础设施。与传统数据仓库不同,数据湖以低成本、高扩展性、多格式支持为核心优势,但若设计不当,极易沦为“数据沼泽”(Data Swamp)——数据混乱、不可信、难使用。
StarRocks_labs5 个月前
starrocks·数据湖·dataops·dbt·etl 框架
dbt+DataOps+StarRocks:构建一体化数据治理与智能分析平台实践作者:胡翔,SJM Resorts 企业方案设计高级经理、dbt- starrocksContributor
数据与后端架构提升之路5 个月前
数据湖·mlops·vla·流批一体·世界模型·自动驾驶数据闭环·occupancy
2025:把“大模型”写进“数据闭环”——从自动驾驶到具身机器人,我如何用数据与算法做可落地的智能系统关键词:数据湖 / 流批一体 / MLOps / 自动驾驶数据闭环 / Occupancy / VLA / 世界模型 / 小模型本地推理 / 可靠性
colorknight6 个月前
数据仓库·人工智能·数据治理·数据湖·数据科学·数据编织·自动化治理
数据编织-异构数据存储的自动化治理大约十年前,笔者曾经有过一个思考:“当时绝大多数客户都已经进行了近20年的信息化建设,拥有了数个到数十个不等的信息系统。这些信息系统会选择合适的数据存储技术来存放相关的数据。每个系统都会拥有多张不同的数据表。随着时间的迁移,客户是否还能够对数据表有清晰的了解?是否还知道数据表的用途、数据表中字段的含义以及相关性?”。当时很多客户也已经进行了相关的数据治理建设,引入了数据仓库技术,对数据进行了分层管理。少量客户也开始使用数据湖技术对全结构数据进行管理。但实际情况是,总有或这或那的原因,很多系统的数据表游离于