数据湖

hzp6663 天前
人工智能·深度学习·机器学习·大模型·llm·数据湖·大数据存储
Magnus:面向大规模机器学习工作负载的综合数据管理方法Magnus,一个专为解决大规模机器学习(ML)工作负载中数据管理挑战而设计的综合性系统。针对传统数据湖表格式(如Iceberg)在处理海量数据、多模态数据、频繁更新和大模型训练时面临的存储效率低、元数据开销大、读写性能差等问题,Magnus提出了多项创新。其核心包括:为宽表和多模态数据设计的高效Krypton和Blob存储格式;通过消除冗余和索引优化来提升元数据管理效率;支持列级更新和主键Upsert的轻量级MOR机制;以及为大型语言模型(LLM)和长序列推荐模型(LRM) 训练优化的双表设计和分片机制
ApacheSeaTunnel6 天前
大数据·数据仓库·开源·数据湖·dataops·白鲸开源·底层技术
新兴数据湖仓手册·从分层架构到数据湖仓架构(2025):数据仓库分层的概念与设计《新兴数据湖仓设计与实践手册·从分层架构到数据湖仓架构设计(2025 年)》 系列文章将聚焦从数据仓库分层到数据湖仓架构的设计与实践。手册将阐述数据仓库分层的核心价值、常见分层类型,详解分层下的 ETL 架构及数据转换环节,介绍数据仓库分层对应的技术架构,并以贴源层(ODS)、数据仓库层(DW)、数据服务层(DWS)为例,深入剖析数湖仓分层设计,最后探讨数据仓库技术趋势并进行小结。
StarRocks_labs1 个月前
starrocks·数据湖·阿里巴巴·paimon·物化视图
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由作者:马龙杰(澄诺) 阿里巴巴中国电商事业群-饿了么-DIC 数据智能中心-数据研发流量组摘要:实时湖仓架构赋能即时零售,在多端流量与亿级营销投入下支撑分钟级决策与体验升级。
黄雪超2 个月前
大数据·spark·数据湖·paimon
Paimon——官网阅读:Spark 引擎Paimon目前支持Spark 3.5、3.4、3.3、3.2和3.1 。为获得更好的体验,我们推荐使用最新的Spark版本。
黄雪超2 个月前
大数据·数据湖·paimon
Paimon——官网阅读:非主键表如果一个表未定义主键,那么它就是一个追加表(append table)。与主键表相比,它不具备直接接收变更日志的能力。无法通过插入更新(upsert)直接用数据更新该表,只能接收追加的数据。
StarRocks_labs3 个月前
数据库·starrocks·数据湖·物化视图·存算分离
StarRocks Community Monthly Newsletter (Jun)存算分离:支持生成列、主键表重建索引;大规模导入逻辑优化,降低小文件数量。数据湖分析:Beta 支持 Iceberg 视图创建与修改;支持 Iceberg REST Catalog 嵌套命名空间;
兰丰岐4 个月前
数据湖·minio·trino·amoro·apache amoro·iceberg rest catalog·iceberg rest
使用minio + iceberg-rest + amoro+ + trino搭建iceberg数据湖架构该架构(MinIO + Iceberg REST Catalog + Amoro + Trino)的设计融合了现代数据湖的核心需求,旨在实现‌存储解耦、计算灵活、管理自动化及高性能查询‌的综合目标。
镜舟科技5 个月前
数据仓库·物联网·ai·数据存储·数据湖·湖仓一体·大数据分析
数据湖和数据仓库的区别在当今数据驱动的时代,企业需要处理和存储海量数据。数据湖与数据仓库作为两种主要的数据存储解决方案,各自有其独特的优势与适用场景。本文将客观详细地介绍数据湖与数据仓库的基本概念、核心区别、应用场景以及未来发展趋势,帮助读者更好地理解和选择适合自身需求的数据存储方案。
镜舟科技6 个月前
starrocks·数据仓库·数据湖·大数据平台·湖仓一体·物化视图·流式湖仓
大数据平台与数据仓库的核心差异是什么?随着数据量呈指数级增长,企业面临着如何有效管理、存储和分析这些数据的挑战。 大数据平台和 数据仓库作为两种主流的数据管理工具,常常让企业在选型时感到困惑,它们之间的界限似乎越来越模糊,功能也有所重叠。本文旨在厘清这两种技术的核心差异,并为企业提供一个实用的选型参考框架。
chat2tomorrow6 个月前
大数据·数据仓库·低代码·架构·数据湖·sql2api
数据仓库 vs 数据湖:架构、应用场景与技术差异全解析目录一、概念对比:结构化 vs 全类型数据二、技术架构对比1. 数据仓库架构特点2. 数据湖架构特点三、典型应用场景
宝哥大数据6 个月前
大数据·数据仓库·数据湖
数据中台、数据湖和数据仓库 区别
dundunmm6 个月前
实时计算·数据湖·数据·大数据处理
【每日一个知识点】分布式数据湖与实时计算在现代数据架构中,分布式数据湖(Distributed Data Lake) 结合 实时计算(Real-time Computing) 已成为大数据处理的核心模式。数据湖用于存储海量的结构化和非结构化数据,而实时计算则确保数据能够被迅速处理和分析,以支持业务决策、流式数据分析和机器学习应用。
SelectDB技术团队7 个月前
大数据·数据仓库·数据分析·doris·数据湖·湖仓一体·日志数据
Apache Doris 2.1.9 版本正式发布亲爱的社区小伙伴们,Apache Doris 2.1.9 版本已正式发布。2.1.9 版本对湖仓一体、倒排索引、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
镜舟科技7 个月前
starrocks·数据分析·apache·iceberg·数据湖·湖仓一体·元数据
Apache Iceberg 解析,一文了解Iceberg定义、应用及未来发展Apache Iceberg 是一种开源的 表格式(Table Format) ,专为超大规模数据分析场景设计,通过标准化数据存储规范与访问协议,解决了传统数据湖在元数据管理、事务控制、查询性能等方面的核心痛点。以下从六个维度全面解析其技术原理、应用场景与最佳实践。
涤生大数据7 个月前
数据仓库·数据挖掘·数据分析·doris·数据湖·数字化转型·湖仓一体
Doris 湖仓一体:数据分析新范式在大数据的浪潮里,企业数据量呈爆发式增长,数据处理和分析的需求也变得越来越复杂。传统的数据库、数据仓库和数据湖各管一摊,彼此割裂,导致数据利用效率大打折扣。这个时候,湖仓一体的概念横空出世,像是一场 及时雨,为企业的数据管理带来了全新的可能性。今天,我们就来聊聊 基于 Doris 的湖仓一体,看看它到底是怎么解决数据管理的难题,让企业玩转大数据的!
SelectDB技术团队7 个月前
大数据·数据库·iceberg·doris·数据湖·湖仓一体·天翼云
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践导读:天翼云基于 Apache Doris 成功落地项目已超 20 个,整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB。天翼云基于 Apache Doris 和 Apache Iceberg 构建的湖仓一体方案,兼具灵活性、高性能和低成本优势,同时满足了报表和 BI 分析、湖仓融合分析、日志存储分析、高并发实时分析、MPPDB 国产化替代等多种场景需求。
AWS官方合作商8 个月前
云计算·aws·数据湖·对象存储·存储·s3
AWS S3深度解析:十大核心应用场景与高可用架构设计实践摘要:作为全球领先的对象存储服务,Amazon S3凭借其高扩展性、持久性和安全性,已成为企业云原生架构的核心组件。本文将深入探讨S3的典型技术场景,并揭秘其背后的架构设计逻辑。
ZNineSun8 个月前
starrocks·olap·数据湖·mpp·oltp
新一代MPP数据库:StarRocksOLAP数据库(Online Analytical Processing Database,在线分析处理数据库)是大数据场景下用于进行数据分析不可或缺的系统,早期主要有Oracle、Vertica、HANA等商业数据库占据市场份额,后来出现了GreenPlum、Impala、Presto、Kylin等开源的OLAP系统,字节跳动带火了ClickHouse,Snowflake的出现和上市使OLAP进入了云原生时代,之后从百度Palo发展而来的StarRocks和Doris相继进入Linux和Aapche基金
moton20178 个月前
大数据·数据仓库·数据治理·etl·数据湖·元数据管理·主数据管理
一.数据治理理论架构数据治理理论架构图描绘了一个由顶层设计、管控机制、核心领域和管理系统四个主要部分组成的数据治理框架。它旨在通过系统化的方法,解决数据治理机制缺失引发的业务和技术问题,并最终提升企业的数据管理水平。