湖仓一体

StarRocks_labs1 个月前
大数据·flink·湖仓一体·paimon·lakehouse
饿了么基于Flink+Paimon+StarRocks的实时湖仓探索作者:王沛斌@饿了么小编导读:本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:
SelectDB技术团队2 个月前
数据库·doris·trino·湖仓一体·lakehouse
兼容Trino Connector,扩展Apache Doris数据源接入能力|Lakehouse 使用手册(四)Apache Doris 内置支持包括 Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC 在内的多种 Catalog,并为其提供原生高性能且稳定的访问能力,以满足与数据湖的集成需求。而随着 Apache Doris 用户的增加,新的数据源连接需求也随之增加。因此,从 3.0 版本开始,Apache Doris 引入了 Trino Connector 兼容框架。
SelectDB技术团队2 个月前
数据仓库·数据分析·湖仓一体·hicool
从 7000 余项目脱颖而出,飞轮科技《新一代实时分析数据仓库解决方案》荣获 HICOOL 2024 全球创业大赛二等奖HICOOL 2024 全球创业者峰会于 2024 年 8 月 23 日 -25 日 在中国国际展览中心(顺义馆)成功举行,峰会以“新质引领 创新共融”为主题,聚焦技术创新、产业融合、新质共享与国际合作四大要素。
Apache Flink2 个月前
大数据·flink·实时计算·湖仓一体·paimon
Apache Paimon V0.9最新进展摘要:本文整理自 Paimon PMC Chair 李劲松老师在 8 月 3 日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分享 Apache Paimon V0.9 的最新进展以及遇到的一些挑战。
StarRocks_labs3 个月前
大数据·数据库·数据分析·flink·数据湖·湖仓一体·paimon
StarRocks Lakehouse 快速入门——Apache PaimonStarRocks Lakehouse 快速入门指南为您提供了湖仓技术概览,旨在帮助您迅速掌握其核心特性、独特优势和应用场景。本指南将指导您如何高效地利用 StarRocks 构建解决方案。文章末尾,我们集合了来自阿里云、饿了么、喜马拉雅和同程旅行等行业领导者在 StarRocks x Paimon Streaming Lakehouse 活动中的实战经验分享。通过这些真实案例,您可以更直观地了解如何在实际应用中发挥 StarRocks Lakehouse 的最佳效用。希望这些实践能启发您在自己的项目中应
SelectDB技术团队3 个月前
数据库·iceberg·doris·湖仓一体·lakehouse
Apache Doris + Iceberg 快速搭建指南|Lakehouse 使用手册(三)湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,能够更加便捷地满足各种数据处理分析的需求。Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。我们将通过一系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Paimon、Iceberg、OSS、Delta Lake、Kudu、BigQuery 等。
isNotNullX4 个月前
大数据·数据仓库·spark·数据湖·湖仓一体·数据网格
一文详解数据仓库、数据湖、湖仓一体和数据网格数据仓库是传统的数据存储方式,其核心概念是将不同来源的数据抽取、转化和加载到一个中心化的存储系统中,供企业进行决策分析使用。数据仓库通过预定义的模式和结构化的数据模型,使得数据易于理解和查询分析。如果企业有明确的分析要求,并且数据结构稳定且易于理解,数据仓库是一个不错的选择。
StarRocks_labs4 个月前
大数据·数据库·数据仓库·云计算·湖仓一体
StarRocks on AWS Graviton3,实现 50% 以上性价比提升在数据时代,企业拥有前所未有的大量数据资产,但如何从海量数据中发掘价值成为挑战。数据分析凭借强大的分析能力,可从不同维度挖掘数据中蕴含的见解和规律,为企业战略决策提供依据。数据分析在营销、风险管控、产品优化等领域发挥着关键作用,帮助企业提高运营效率、优化业务流程、发现新商机、增强竞争力。低成本高效率的完成对海量数据的分析,及时准确的释放数据价值,已成为企业赢得竞争优势的利器。StarRocks on AWS 为这个课题交出了一份答卷。
Light Gao4 个月前
大数据·数据仓库·云原生·数据湖·湖仓一体
从数据湖到湖仓一体:统一数据架构演进之路在阅读本文之前,建议读者先对数据仓库和数据湖有一些基本的了解。这将有助于更好地理解本文内容。您可以参考笔者以下文章:
贾斯汀玛尔斯4 个月前
数据仓库·doris·olap·湖仓一体
doris使用总结-持续更新Doris 建表修改规则
SelectDB技术团队4 个月前
大数据·doris·hudi·湖仓一体·lakehouse
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)作者:SelectDB 技术团队导读:湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门,我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Iceberg、Paimon、OSS、Delta Lake、Kudu、BigQ
BlackJJCat4 个月前
大数据·starrocks·iceberg·数据湖·湖仓一体
StarRocks分布式元数据源码解析https://github.com/StarRocks/starrocks/pull/44276/files
SelectDB技术团队4 个月前
大数据·数据仓库·数据湖·湖仓一体·网易游戏
网易游戏如何基于 Apache Doris 构建全新湖仓一体架构导读:随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
SelectDB技术团队4 个月前
大数据·数据仓库·doris·实时分析·湖仓一体
Apache Doris 2.1.4 版本正式发布亲爱的社区小伙伴们,Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中,我们对数据湖分析场景进行了多项功能体验优化,重点修复了旧版本中异常内存占用的问题,同时提交了若干改进项以及问题修复,进一步提升了系统的性能、稳定性及易用性,欢迎大家下载使用。
HashData酷克数据5 个月前
数据库·湖仓一体
如何优雅实现存算分离:缓存及Tablespace讲解与演示在传统的紧耦合系统设计中,存储与计算密不可分,但随着业务的发展,常常会为了扩存储而带来额外的计算扩容,这其实就是一种浪费;同理,只为了提升计算能力,也会带来一段时期的存储浪费。存算分离的架构已然成为行业发展的客观需要。 在设计大型系统时,我们必须深入思考底层存储该如何设计。如果单纯依赖扩容存储来应对前端访问的增长,会引发难以预料的延迟问题。在存算分离的框架下,我们需要对存储进行设计改造,以避免牺牲性能。 上次直播中,由酷克数据资深解决方案架构师王老师与我们探讨了存算分离的基本原则和实现技术,深入讲解了Ha
Java后端何哥10 个月前
大数据·数据仓库·数据湖·湖仓一体·数据湖和湖仓一体
大数据技术16:数据湖和湖仓一体前言:近几年大数据概念很多,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又开始流行湖仓一体。互联网公司拼命造高大上概念来忽略小白买单的能力还是可以的。
碳学长1 年前
架构·湖仓一体
湖仓一体架构理论与实践汇总软件研发本质上属于“手工业”。软件研发在很大程度上还是依赖于个人的能力。当软件规模较小时,依赖“手工业”可以解决问题,但是当软件规模大了之后再依赖“手工业”就不行了。
hf2000121 年前
flink·doris·湖仓一体
Apache Doris 整合 FLINK 、 Hudi 构建湖仓一体的联邦查询入门1.概览多源数据目录(Multi-Catalog)功能,旨在能够更方便对接外部数据目录,以增强Doris的数据湖分析和联邦数据查询能力。
白鹿第一帅1 年前
大数据·云原生·gaussdb·dws·白鹿第一帅·云原生数仓技术解析·湖仓一体
GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通数据仓库是一个用于存储大量结构化和非结构化数据的集中式数据存储区域。它旨在帮助组织更好地理解其数据并支持决策制定过程。数据仓库通常由多个数据源提供数据,并使用 ETL(提取,转换,加载)过程将这些数据集成到一个单独的位置中。数据仓库通常用于支持商业分析、数据挖掘、业务智能和决策制定。