数据湖

百度智能云技术站13 天前
hdfs·数据湖·对象存储·并行文件存储
计算不停歇,百度沧海数据湖存储加速方案 2.0 设计和实践本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。今天给大家介绍下百度沧海·存储团队在数据湖加速方面的工作进展情况。
喻师傅1 个月前
大数据·spark·apache·iceberg·数据湖
Apache Iceberg 与 Spark整合-使用教程(Iceberg 官方文档解析)Spark 目前是进行 Iceberg 操作最丰富的计算引擎。官方建议从 Spark 开始,以理解 Iceberg 的概念和功能。
喻师傅1 个月前
iceberg·数据湖
Apache Iceberg 数据类型参考表
StarRocks_labs2 个月前
apache·iceberg·数据湖·lakehouse
StarRocks Lakehouse 快速入门——Apache Iceberg导读:StarRocks Lakehouse 快速入门旨在帮助大家快速了解湖仓相关技术,内容涵盖关键特性介绍、独特的优势、使用场景和如何与 StarRocks 快速构建一套解决方案。最后大家也可以通过用户真实的使用场景来了解 StarRocks Lakehouse 的最佳实践!
怒码ing2 个月前
大数据·数据仓库·实时数仓·lambda·数据湖·离线数仓·kappa
浅谈维度建模、数据分析模型,何为数据仓库,与数据库的区别大数据HBase图文简介-CSDN博客数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客
StarRocks_labs3 个月前
大数据·数据库·数据分析·flink·数据湖·湖仓一体·paimon
StarRocks Lakehouse 快速入门——Apache PaimonStarRocks Lakehouse 快速入门指南为您提供了湖仓技术概览,旨在帮助您迅速掌握其核心特性、独特优势和应用场景。本指南将指导您如何高效地利用 StarRocks 构建解决方案。文章末尾,我们集合了来自阿里云、饿了么、喜马拉雅和同程旅行等行业领导者在 StarRocks x Paimon Streaming Lakehouse 活动中的实战经验分享。通过这些真实案例,您可以更直观地了解如何在实际应用中发挥 StarRocks Lakehouse 的最佳效用。希望这些实践能启发您在自己的项目中应
大数据小朋友3 个月前
大数据·服务器·flink·数据湖
Flink-StarRocks详解:第四部分StarRocks分区管理,数据压缩(第54天)本文为Flink-StarRocks详解后续章节:主要详解StarRocks分区分桶管理,数据压缩, 由于篇幅过长,后续接着下面进行详解:  StarRocks查询数据湖  实现即席查询案例
isNotNullX4 个月前
大数据·数据仓库·spark·数据湖·湖仓一体·数据网格
一文详解数据仓库、数据湖、湖仓一体和数据网格数据仓库是传统的数据存储方式,其核心概念是将不同来源的数据抽取、转化和加载到一个中心化的存储系统中,供企业进行决策分析使用。数据仓库通过预定义的模式和结构化的数据模型,使得数据易于理解和查询分析。如果企业有明确的分析要求,并且数据结构稳定且易于理解,数据仓库是一个不错的选择。
upward3374 个月前
大数据·笔记·spark·hudi·数据湖
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【Hudi概述、Hudi编译安装】
Light Gao4 个月前
大数据·数据仓库·云原生·数据湖·湖仓一体
从数据湖到湖仓一体:统一数据架构演进之路在阅读本文之前,建议读者先对数据仓库和数据湖有一些基本的了解。这将有助于更好地理解本文内容。您可以参考笔者以下文章:
喻师傅4 个月前
数据库·数据仓库·数据湖·数据集市
Database数据库 vs Data Warehouse数据仓库 vs Data Mart数据集市 vs Data Lake数据湖数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。
Norris Huang4 个月前
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
Light Gao4 个月前
大数据·数据仓库·架构·数据湖
从数据仓库到数据湖(上):数据湖导论数据湖的概念最早由Pentaho的创始人兼CTO詹姆斯·迪克森(James Dixon)于2010年10月在纽约Hadoop World大会上提出。然而,在国内,数据湖的概念直到2019年Iceberg、Hudi和Delta Lake三大数据湖开源后才真正流行起来。
mark_wu20004 个月前
大数据·数据仓库·hive·数据湖
数据湖仓一体(四)安装hive上传安装包到/opt/software目录并解压配置环境变量分发环境变量刷新环境变量,5台机器上执行上传mysql驱动包到hive的lib目录下
Light Gao4 个月前
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
从数据仓库到数据湖(下):热门的数据湖开源框架在上一篇从数据仓库到数据湖(上):数据湖导论文章中,我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架,并分享笔者对当前数据湖技术的理解和看法。
BlackJJCat4 个月前
大数据·starrocks·iceberg·数据湖·湖仓一体
StarRocks分布式元数据源码解析https://github.com/StarRocks/starrocks/pull/44276/files
SelectDB技术团队4 个月前
大数据·数据仓库·数据湖·湖仓一体·网易游戏
网易游戏如何基于 Apache Doris 构建全新湖仓一体架构导读:随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
一切如来心秘密7 个月前
大数据·数据湖·paimon
数据湖技术选型——Flink+Paimon 方向对比读写性能和对流批一体的支持情况,建议选择Apache Paimon 截止2024年1月12日数据湖四大开源项目特性如下:
琴剑飘零西复东8 个月前
数据仓库·数据湖
数据仓库 vs. 数据湖:解析两者的区别与优劣在当今数字化时代,数据成为了企业最宝贵的资产之一。为了更好地管理和利用数据,企业需要建立合适的数据存储和管理系统。在这个过程中,数据仓库和数据湖成为了两种常见的选择。虽然它们都旨在帮助企业管理数据,但在实际应用中,它们有着不同的优势和适用场景。本文将探讨数据仓库和数据湖的区别,并比较它们的优劣势。
图灵追慕者9 个月前
数据仓库·数据湖·数据中台·算法平台
数据仓库和数据湖的区别数据仓库和数据湖是两种不同的数据存储和管理架构,它们有以下区别:1.数据结构:数据仓库采用结构化的数据模型,通常是规范化的关系型数据库,其中数据以表格形式组织,使用预定义的模式和架构。而数据湖则是一种原始、未经处理的数据存储,它可以包含结构化、半结构化和非结构化数据,数据以原始格式存储,没有强制的模式和架构。