技术栈
数仓
ApacheSeaTunnel
4 天前
大数据
·
数仓
·
数据集成
·
技术分享
(三)数仓人必看!ODS 到 DWS 各层设计规范全解析,含同步/存储/质量核心要点
《新兴数据湖仓设计与实践手册·数据湖仓建模及模型命名规范(2025年)》 由四篇递进式指南组成,以“模型架构—公共规范—分层规范—命名规范”为主线,系统构建可演进、可治理、可共享的现代数据湖仓。
海豚调度
20 天前
大数据
·
数仓
·
技术规范
(二)一文读懂数仓设计的核心规范:从层次、类型到生命周期
《新兴数据湖仓设计与实践手册·数据湖仓建模及模型命名规范(2025年)》 由四篇递进式指南组成,以“模型架构—公共规范—分层规范—命名规范”为主线,系统构建可演进、可治理、可共享的现代数据湖仓。
大数据狂人
2 个月前
大数据
·
starrocks
·
hive
·
数仓
深入剖析 StarRocks 与 Hive 的区别、使用场景及协同方案实践
在现代数据分析与数仓建设中,Hive 与 StarRocks 是两种极具代表性的大数据组件。一个以批处理著称,一个则以高性能实时分析见长。本文将围绕两者的技术架构、核心特性、适用场景进行全面对比,并结合实践,剖析它们如何协同配合实现高效数据分析。
程序员老周666
6 个月前
大数据
·
数据仓库
·
hive
·
数仓
·
拉链抽取
·
增量抽取
·
数据仓库架构
数据仓库标准库模型架构相关概念浅讲
数据仓库与数据库的区别可参考:数据库与数据仓库的区别及关系_数据仓库和数据库-CSDN博客总之,数据库是为捕获数据而设计,数据仓库是为分析数据而设计
涤生大数据
6 个月前
数据仓库
·
数据治理
·
数仓
·
数据开发
·
及时性
数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!
数据治理,数据质量这快是中大厂,高阶大数据开发面试必备技能,企业基于大数据底座去做数仓,那么首先需要保障的就是数据质量。
linweidong
6 个月前
大数据
·
flink
·
checkpoint
·
流式计算
·
数仓
·
自定义source
·
数据分片
Flink 自定义数据源:从理论到实践的全方位指南
在 Flink 的世界里,数据源是数据流的 “源头活水”。简单来说,它负责从外部系统(比如数据库、消息队列、文件系统等)读取数据,并将其转化为 Flink 内部能够处理的格式,供后续的算子(Operator)加工。不管是实时流处理的无界数据,还是批处理的有限数据集,数据源都是那个默默干活的 “搬运工”。
想做富婆
7 个月前
数据库
·
oracle
·
数仓
数仓搭建实操(传统数仓oracle):[构建数仓层次|ODS贴源层]
创建五个用户用来分层,并直接赋予DBA角色,方便后期使用查看权限是否赋予成功将数据文件导入数据源(DB)
Pingszi
9 个月前
阿里云
·
flink
·
数仓
2.阿里云flink&selectdb-jar作业
本文继续介绍使用阿里云实时计算flink把数据从自建mysql同步到阿里云selectdb的过程。上一节使用sql作业,不够强大,有如下问题:
Pingszi
9 个月前
python
·
阿里云
·
flink
·
数仓
3.阿里云flink&selectdb-py作业
Python API中文文档 本文介绍在阿里云实时计算flink中使用python作业,把oss中的数据同步数据到阿里云selectdb的过程。python简单的语法特性更适合flink作业的开发; 先说结论: 在实际开发中遇到了很多问题,导致python作业基本基本无法运行。最后放弃了;
PersistJiao
10 个月前
数仓
·
lambda架构
·
实时数据
·
离线数据
数仓报表需要支持历史数据和实时数据的整合的场景要如何处理
结合你的需求,需要支持 历史数据和实时数据的整合,并支持按时间粒度查询(如今日、本周、本月),这是一个常见的实时+离线混合处理场景。以下是详细分析和推荐方案,帮助你设计一个高效的 ETL 流程来满足这些需求。
字节跳动数据平台
1 年前
大数据
·
数据库
·
云原生
·
数仓
·
click house
ByteHouse高性能向量检索实践——“以图搜图”
使用 PQ、SQ 压缩,将向量的存储空间降低到原来的 1/4 或 1/3。例如,在精度要求不太高的情况下,将 float32 类型的数据压缩为 INT8 类型,从而将 4 字节的数据压缩为 1 字节,减少存储空间。
顽石九变
1 年前
大数据
·
数仓
【数仓】数仓建模理论及步骤,ER建模,维度建模,星形模型,雪花模型,数据分层
数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合。它主要用于组织、积累历史数据,并使用分析方法(如OLAP、数据分析)进行分析整理,以辅助决策,为管理者、企业系统提供数据支持、构建商业智能。
华为云开发者联盟
1 年前
数仓
·
华为云开发者联盟
·
华为云gaussdb(dws)
详解数仓对象设计中序列SEQUENCE原理与应用
本文分享自华为云社区《GaussDB(DWS)对象设计之序列SEQUENCE原理与使用方法介绍》,作者:VV一笑。
顽石九变
2 年前
大数据
·
分布式
·
zookeeper
·
kafka
·
数仓
【数仓】kafka软件安装及集群配置
准备3台虚拟机本例系统版本 CentOS-7.8,已安装jdk1.8关闭防火墙zookeeper 已安装,且已启动
顽石九变
2 年前
大数据
·
hadoop
·
分布式
·
数仓
【数仓】Hadoop集群配置常用参数说明
Hadoop集群中,需要配置的文件主要包括四个配置核心Hadoop参数:配置HDFS参数:配置MapReduce参数(如果使用):
张飞的猪
2 年前
大数据
·
数据库
·
数据仓库
·
clickhouse
·
etl
·
数仓
·
数据处理
·
数据开发
ClickHouse(24)ClickHouse集成mongodb表引擎详细解析
MongoDB 引擎是只读表引擎,允许从远程 MongoDB 集合中读取数据(SELECT查询)。引擎只支持非嵌套的数据类型。不支持 INSERT 查询。
张飞的猪
2 年前
大数据
·
数据库
·
数据仓库
·
clickhouse
·
etl
·
数仓
·
数据开发
ClickHouse(22)ClickHouse集成HDFS表引擎详细解析
这个引擎提供了与Apache Hadoop生态系统的集成,允许通过ClickHouse管理HDFS上的数据。这个引擎提供了Hadoop的特定功能。
张飞的猪
2 年前
大数据
·
数据库
·
数据仓库
·
clickhouse
·
etl
·
数仓
·
数据开发
ClickHouse(21)ClickHouse集成Kafka表引擎详细解析
此引擎与Apache Kafka结合使用。Kafka 特性:老版Kafka集成表引擎参数格式:新版Kafka集成表引擎参数格式:
张飞的猪
2 年前
大数据
·
数据库
·
数据仓库
·
clickhouse
·
postgresql
·
etl
·
数仓
·
数据开发
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询.
张飞的猪
2 年前
大数据
·
数据库
·
数据仓库
·
clickhouse
·
etl
·
数仓
·
数据处理
·
数据开发
ClickHouse(19)ClickHouse集成Hive表引擎详细解析
Hive引擎允许对HDFS Hive表执行 SELECT 查询。目前它支持如下输入格式:-文本:只支持简单的标量列类型,除了 Binary