doris

li.wz8 天前
java·后端·doris
溯源数据清洗:一次由“可控”到“失控”的复盘凌晨两点,我盯着监控大盘,那个代表数据延迟的红色曲线像心电图一样剧烈跳动。我们的溯源系统要求数据在10分钟内可查,但现在延迟已经超过两小时。上游是七个不同的业务系统,通过Kafka推送原始数据,格式混乱:同一个字段,有的用product_id,有的用productId;日期格式从yyyy-MM-dd到时间戳都有;甚至还有JSON里套XML的奇葩结构。
大数据追光猿11 天前
大数据·经验分享·笔记·性能优化·doris
【大数据Doris】生产环境,Doris主键模型全表7000万数据更新写入为什么那么慢?公司在 Apache Doris 的生产实践中,发现在做数据需求时候,遇到这样一个“致命”问题:今天这篇文章用来记录下这个问题,且做详细剖析,并给出一套可落地、高性价比的优化方案。 首先,我从Doris官网了解到,这并非Doris的缺陷,而是主键模型(Unique Key / Primary Key)的写入机制与全量导入场景天然不匹配。以下是进行问题分析和问题解决。
二进制_博客16 天前
doris·mpp数据库·doris2.x
Doris2.x连载文章(4)物化视图是既包含计算逻辑也包含数据的实体。它不同于视图,因为视图仅包含计算逻辑,本身不存储数据。视图:创建一个视图,类似于临时表。mysql,oracle 都有这样的功能。
二进制_博客17 天前
数据库·doris·mpp数据库
Doris2.x连载文章(2)https://doris.apache.org/zh-CN/docs/table-design/data-model/overview
二进制_博客17 天前
doris·mpp数据库
Doris2.x博客连载(1)官网:https://doris.apache.org/zh-CN/docs/gettingStarted/what-is-apache-doris
KG大数据17 天前
物联网·doris·olap
Apache Doris 在 IOT 场景的实践与落地方案在协助众多传统制造业公司进行了一系列的 IOT 方案升级改造和落地实施后,还是总结了不少这方面的经验,今天我们一起来看看, Apache Doris 在 IOT 场景从技术实现角度和业务场景提效方面应该如何正确的设计架构方案及开发实现。
鹿衔`25 天前
apache·doris·paimon
Apache Doris 2.1.10 集群部署与 Paimon 数据湖集成实战文档目录1. 环境概述1.1 硬件与系统信息1.2 节点规划1.3 依赖组件 (CDH)2. 基础环境准备 (所有节点)
鹿衔`1 个月前
flink·apache·doris·paimon
Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档目录1. 架构规划1.1 硬件与系统信息1.2节点分配1.3 依赖组件 (CDH)2. 操作系统基础配置 (所有节点)
想ai抽1 个月前
starrocks·doris·数据湖
StarRocks PB 级日增量数据模型优化:注意点、调优策略与风险防控StarRocks 处理每日 PB 级日增量时,核心矛盾是「高吞吐导入」与「低延迟查询」的平衡,需从 数据模型设计、导入链路、存储查询、资源调度、稳定性保障 五维度系统性优化,同时规避增量场景下的典型风险。以下是具体细节:
孟意昶1 个月前
大数据·数据库·分布式·sql·mysql·doris
Doris专题27-mysql兼容性与join连接Apache Doris高度兼容MySQL协议和语法,但存在一些重要差异。理解这些差异对于从MySQL迁移到Doris或进行混合部署至关重要。
FeelTouch Labs1 个月前
doris
图解Apache Dorishttps://zhuanlan.zhihu.com/p/1891190981002495544Apache Doris × AI
最笨的羊羊1 个月前
doris·flink cdc系列·schemautils·模式工具类
Flink CDC系列之:Doris 模式工具类DorisSchemaUtils这是一个 Doris 模式工具类,专门用于处理 Flink CDC 到 Doris 数据同步时的自动分区配置。
最笨的羊羊1 个月前
doris·flink cdc系列·数据接收器工厂类·datasinkfactory
Flink CDC系列之:数据接收器工厂类DorisDataSinkFactory这是一个实现了 DataSinkFactory 接口的工厂类,专门用于创建 Doris 数据库的数据接收器。
Faith_xzc2 个月前
大数据·性能优化·doris
Doris内存问题指南:监控、原理与高频OOM解决方案做Doris运维或开发的同学,多少都踩过内存的坑:BE突然OOM、导入时内存暴涨、查询报“内存不足”…明明配置看着没问题,问题却反复出现?
piepis2 个月前
数据仓库·docker·doris·容器部署
Doris Docker 完整部署指南目前在网上没找到一个好用的doris 本地安装教程,参考官网的教程,写了一docker版本,基于mac版本的
涤生大数据2 个月前
大数据·spark·doris·实时计算·大数据开发·实时分析·实时技术
日均亿级数据的实时分析:Doris如何接过Spark的接力棒?过去十年,若要在大数据技术圈评选 “现象级顶流”,Apache Spark 必然是绕不开的存在。它曾以 “颠覆者” 姿态打破 Hadoop MapReduce 的桎梏,成为企业搭建数据体系的 “标配引擎”—— 从 TB 级离线数仓的批处理,到日均亿级数据的 ETL 清洗,再到早期机器学习模型的训练,Spark 几乎承包了大数据领域的半壁江山。 然而,随着数据需求的演进,企业从 “离线批量” 逐渐迈向 “实时交互” 与 “一体化分析”,新的技术浪潮正在兴起。以 Apache Doris 为代表的新一代引擎(
FeelTouch Labs2 个月前
doris
Apache Doris 与 湖仓一体Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris 能够较好的满足报表分析、即席查询、统一数仓构建、湖仓一体等使用场景,用户可以在此之上构建大屏看板、用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析等应用。
孟意昶3 个月前
大数据·数据库·分布式·sql·doris
Doris专题17- 数据导入-文件格式Apache Doris 支持多种文件格式的数据导入,每种格式都有其特定的使用场景和配置参数。本笔记详细记录了 ORC、Parquet、JSON 和 CSV 格式的导入方法和最佳实践。
boonya3 个月前
apache·doris
Apache Doris 入门与技术替代方案Apache Doris 是一个基于 MPP 的实时数据仓库,以其极快的查询速度而闻名。对于大型数据集的查询,它可以在亚秒级返回结果。它既支持高并发的点查询,也支持高吞吐量的复杂分析。它可用于报表分析、即席查询、统一数据仓库和数据湖查询加速。基于 Apache Doris,用户可以构建用于用户行为分析、A/B 测试平台、日志分析、用户画像分析和电商订单分析的应用程序。
涤生大数据3 个月前
性能优化·apache·doris·大数据技术
Apache Doris性能优化全解析:慢查询定位与引擎深度调优在海量数据与复杂查询场景下,Apache Doris 的性能有时候并不能达到预期,这时候就需要通过系统性调优匹配业务需求。本文将梳理从问题定位到引擎优化的全流程方法,帮助开发者精准挖掘系统性能潜能。