数仓

李昊哲小课

Ubuntu26.04-Hadoop3.5.0搭建hive4.2.0登录MySQL修改MySQL密码登录MySQL后，修改现有用户的host修改MySQL配置文件找到并修改bind-address

阿坤带你走近大数据

数仓架构的设计思路、模型选择依据、落地难点及解决方案的介绍构建一个成功的数据仓库，核心不在于技术的堆砌，而在于架构与业务的适配度。以下从设计思路、模型选择、落地难点及解决方案四个维度进行深度拆解。

ApacheSeaTunnel

未来十年的数据工程：从 Modern Data Stack 到 Data Engineering Harness过去十年，数据工程的主线，是 Modern Data Stack 对传统数仓体系的一次拆解与重组。这套体系当然是进步，它让数据工程从“一堆脚本 + Crontab”的原始阶段，走向了云原生、弹性计算、工程化治理和开放生态。

涤生大数据

Doris/StarRocks 高频面试题通关指南对于大数据开发和数据仓库工程师来说（尤其是实时方向来说），Apache Doris 和 StarRocks 已经成为面试中无法绕开的高频重头戏。

架构师必备：灰度方案汇总大家好，我是Java烘焙师。本文结合笔者的经验和思考，对灰度方案做个总结，重点介绍AB实验。灰度在开发流程中非常普遍。先做小流量验证，确认无误后再推全，灰度过程中一旦发现系统异常、或业务指标异常，应立刻回滚。

ApacheSeaTunnel

（三）数仓人必看！ODS 到 DWS 各层设计规范全解析，含同步/存储/质量核心要点《新兴数据湖仓设计与实践手册·数据湖仓建模及模型命名规范（2025年）》由四篇递进式指南组成，以“模型架构—公共规范—分层规范—命名规范”为主线，系统构建可演进、可治理、可共享的现代数据湖仓。

（二）一文读懂数仓设计的核心规范：从层次、类型到生命周期《新兴数据湖仓设计与实践手册·数据湖仓建模及模型命名规范（2025年）》由四篇递进式指南组成，以“模型架构—公共规范—分层规范—命名规范”为主线，系统构建可演进、可治理、可共享的现代数据湖仓。

大数据狂人

深入剖析 StarRocks 与 Hive 的区别、使用场景及协同方案实践在现代数据分析与数仓建设中，Hive 与 StarRocks 是两种极具代表性的大数据组件。一个以批处理著称，一个则以高性能实时分析见长。本文将围绕两者的技术架构、核心特性、适用场景进行全面对比，并结合实践，剖析它们如何协同配合实现高效数据分析。

程序员老周666

数据仓库标准库模型架构相关概念浅讲数据仓库与数据库的区别可参考：数据库与数据仓库的区别及关系_数据仓库和数据库-CSDN博客总之，数据库是为捕获数据而设计，数据仓库是为分析数据而设计

涤生大数据

数据质量问题中，数据及时性怎么保证？如何有深度体系化回答！数据治理，数据质量这快是中大厂，高阶大数据开发面试必备技能，企业基于大数据底座去做数仓，那么首先需要保障的就是数据质量。

Flink 自定义数据源：从理论到实践的全方位指南在 Flink 的世界里，数据源是数据流的 “源头活水”。简单来说，它负责从外部系统（比如数据库、消息队列、文件系统等）读取数据，并将其转化为 Flink 内部能够处理的格式，供后续的算子（Operator）加工。不管是实时流处理的无界数据，还是批处理的有限数据集，数据源都是那个默默干活的 “搬运工”。

数仓搭建实操(传统数仓oracle):[构建数仓层次|ODS贴源层]创建五个用户用来分层，并直接赋予DBA角色，方便后期使用查看权限是否赋予成功将数据文件导入数据源(DB)

2.阿里云flink&selectdb-jar作业本文继续介绍使用阿里云实时计算flink把数据从自建mysql同步到阿里云selectdb的过程。上一节使用sql作业，不够强大，有如下问题:

3.阿里云flink&selectdb-py作业Python API中文文档本文介绍在阿里云实时计算flink中使用python作业，把oss中的数据同步数据到阿里云selectdb的过程。python简单的语法特性更适合flink作业的开发；先说结论: 在实际开发中遇到了很多问题，导致python作业基本基本无法运行。最后放弃了；

数仓报表需要支持历史数据和实时数据的整合的场景要如何处理结合你的需求，需要支持历史数据和实时数据的整合，并支持按时间粒度查询（如今日、本周、本月），这是一个常见的实时+离线混合处理场景。以下是详细分析和推荐方案，帮助你设计一个高效的 ETL 流程来满足这些需求。

字节跳动数据平台

ByteHouse高性能向量检索实践——“以图搜图”使用 PQ、SQ 压缩，将向量的存储空间降低到原来的 1/4 或 1/3。例如，在精度要求不太高的情况下，将 float32 类型的数据压缩为 INT8 类型，从而将 4 字节的数据压缩为 1 字节，减少存储空间。

【数仓】数仓建模理论及步骤，ER建模，维度建模，星形模型，雪花模型，数据分层数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合。它主要用于组织、积累历史数据，并使用分析方法（如OLAP、数据分析）进行分析整理，以辅助决策，为管理者、企业系统提供数据支持、构建商业智能。

华为云开发者联盟

详解数仓对象设计中序列SEQUENCE原理与应用本文分享自华为云社区《GaussDB(DWS)对象设计之序列SEQUENCE原理与使用方法介绍》，作者：VV一笑。

【数仓】kafka软件安装及集群配置准备3台虚拟机本例系统版本 CentOS-7.8，已安装jdk1.8关闭防火墙zookeeper 已安装，且已启动

【数仓】Hadoop集群配置常用参数说明Hadoop集群中，需要配置的文件主要包括四个配置核心Hadoop参数：配置HDFS参数：配置MapReduce参数（如果使用）：