数据湖

Moshow郑锴5 小时前
大数据·数据库·数据仓库·数据湖·湖仓一体
数据库、数据仓库、数据湖、数据中台、湖仓一体的概念和区别数据库、数据仓库、数据湖、数据中台和湖仓一体是数据管理和分析领域的不同概念,各自有不同的特点和应用场景。以下是它们的主要区别:
high20113 天前
大数据·数据湖·apache paimon
【Apache Paimon】-- 2 -- 核心特性 (0.9.0)目录1、实时更新1.1、实时大批量更新1.2、支持定义合并引擎1.3、支持定义更新日志生成器2、海量数据追加处理
百度智能云技术站1 个月前
hdfs·数据湖·对象存储·并行文件存储
计算不停歇,百度沧海数据湖存储加速方案 2.0 设计和实践本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。今天给大家介绍下百度沧海·存储团队在数据湖加速方面的工作进展情况。
喻师傅2 个月前
大数据·spark·apache·iceberg·数据湖
Apache Iceberg 与 Spark整合-使用教程(Iceberg 官方文档解析)Spark 目前是进行 Iceberg 操作最丰富的计算引擎。官方建议从 Spark 开始,以理解 Iceberg 的概念和功能。
喻师傅2 个月前
iceberg·数据湖
Apache Iceberg 数据类型参考表
StarRocks_labs2 个月前
apache·iceberg·数据湖·lakehouse
StarRocks Lakehouse 快速入门——Apache Iceberg导读:StarRocks Lakehouse 快速入门旨在帮助大家快速了解湖仓相关技术,内容涵盖关键特性介绍、独特的优势、使用场景和如何与 StarRocks 快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解 StarRocks Lakehouse 的最佳实践!
怒码ing3 个月前
大数据·数据仓库·实时数仓·lambda·数据湖·离线数仓·kappa
浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别大数据HBase图文简介-CSDN博客数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客
StarRocks_labs3 个月前
大数据·数据库·数据分析·flink·数据湖·湖仓一体·paimon
StarRocks Lakehouse 快速入门——Apache PaimonStarRocks Lakehouse 快速入门指南为您提供了湖仓技术概览,旨在帮助您迅速掌握其核心特性、独特优势和应用场景。本指南将指导您如何高效地利用 StarRocks 构建解决方案。文章末尾,我们集合了来自阿里云、饿了么、喜马拉雅和同程旅行等行业领导者在 StarRocks x Paimon Streaming Lakehouse 活动中的实战经验分享。通过这些真实案例,您可以更直观地了解如何在实际应用中发挥 StarRocks Lakehouse 的最佳效用。希望这些实践能启发您在自己的项目中应
大数据小朋友4 个月前
大数据·服务器·flink·数据湖
Flink-StarRocks详解:第四部分StarRocks分区管理,数据压缩(第54天)本文为Flink-StarRocks详解后续章节:主要详解StarRocks分区分桶管理,数据压缩, 由于篇幅过长,后续接着下面进行详解:  StarRocks查询数据湖  实现即席查询案例
isNotNullX4 个月前
大数据·数据仓库·spark·数据湖·湖仓一体·数据网格
一文详解数据仓库、数据湖、湖仓一体和数据网格数据仓库是传统的数据存储方式,其核心概念是将不同来源的数据抽取、转化和加载到一个中心化的存储系统中,供企业进行决策分析使用。数据仓库通过预定义的模式和结构化的数据模型,使得数据易于理解和查询分析。如果企业有明确的分析要求,并且数据结构稳定且易于理解,数据仓库是一个不错的选择。
upward3374 个月前
大数据·笔记·spark·hudi·数据湖
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【Hudi概述、Hudi编译安装】
Light Gao4 个月前
大数据·数据仓库·云原生·数据湖·湖仓一体
从数据湖到湖仓一体:统一数据架构演进之路在阅读本文之前,建议读者先对数据仓库和数据湖有一些基本的了解。这将有助于更好地理解本文内容。您可以参考笔者以下文章:
喻师傅4 个月前
数据库·数据仓库·数据湖·数据集市
Database数据库 vs Data Warehouse数据仓库 vs Data Mart数据集市 vs Data Lake数据湖数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。
Norris Huang4 个月前
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
Light Gao4 个月前
大数据·数据仓库·架构·数据湖
从数据仓库到数据湖(上):数据湖导论数据湖的概念最早由Pentaho的创始人兼CTO詹姆斯·迪克森(James Dixon)于2010年10月在纽约Hadoop World大会上提出。然而,在国内,数据湖的概念直到2019年Iceberg、Hudi和Delta Lake三大数据湖开源后才真正流行起来。
mark_wu20004 个月前
大数据·数据仓库·hive·数据湖
数据湖仓一体(四)安装hive上传安装包到/opt/software目录并解压配置环境变量分发环境变量刷新环境变量,5台机器上执行上传mysql驱动包到hive的lib目录下
Light Gao4 个月前
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
从数据仓库到数据湖(下):热门的数据湖开源框架在上一篇从数据仓库到数据湖(上):数据湖导论文章中,我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架,并分享笔者对当前数据湖技术的理解和看法。
BlackJJCat4 个月前
大数据·starrocks·iceberg·数据湖·湖仓一体
StarRocks分布式元数据源码解析https://github.com/StarRocks/starrocks/pull/44276/files
SelectDB技术团队5 个月前
大数据·数据仓库·数据湖·湖仓一体·网易游戏
网易游戏如何基于 Apache Doris 构建全新湖仓一体架构导读:随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
一切如来心秘密7 个月前
大数据·数据湖·paimon
数据湖技术选型——Flink+Paimon 方向对比读写性能和对流批一体的支持情况,建议选择Apache Paimon 截止2024年1月12日数据湖四大开源项目特性如下: