技术栈
数据仓库
地球资源数据云
4 小时前
大数据
·
数据结构
·
数据仓库
·
人工智能
1960年-2024年中国棉花产量数据集
本数据集提供了中国各省级行政区1960年至2024年的棉花产量(单位:万吨),构成一个长期、连续的区域农业生产面板数据,适用于分析棉花生产格局变迁、主产区演化及农业结构调整等研究议题。
i建模
7 小时前
数据仓库
在数据仓库(数仓)中,给数据打标签(Tagging)
在数据仓库(数仓)中,给数据打标签(Tagging)本质上是一个将原始数据转化为业务语义的过程。这不仅仅是简单的字段映射,而是构建数据资产、支撑精细化运营的关键环节。
地球资源数据云
1 天前
大数据
·
数据结构
·
数据库
·
数据仓库
·
人工智能
1900-2023年中国物种分布点位矢量数据集
本数据集提供了1900年至2023年中国陆生脊椎动物物种分布点位数据,覆盖中国大陆全域(不含港澳台)。数据集整合自中国生物物种名录、国家标本资源共享平台、GBIF及近十年公开发表的野外调查文献,所有记录均经过地理坐标清洗、物种学名标准化等信息,每条记录包含物种中文名与拉丁学名(依据《中国生物物种名录2023版》)、观测经纬度(WGS84)、数据来源、观测年份、行政区划及栖息地类型等信息。
Leo.yuan
1 天前
大数据
·
数据仓库
·
spark
数据仓库是什么?数据仓库和大数据平台、数据湖、数据中台、湖仓一体有什么区别?
最近我发现,很多IT同行,有的人都工作五六年了,还是把数据仓库、数据湖、数据中台这几个词混着用。很多人以为自己建的是数据中台,其实底层就是个传统数据仓库。
哥本哈士奇
2 天前
数据仓库
数据仓库笔记 第六篇:PSA 层 SCD2 处理方式
SCD2(Slowly Changing Dimension Type 2) 是维度建模中处理历史变更的行业标准且最常用的方案。相比快照方式,SCD2只写入真正发生变化的数据行,通过 有效期 字段精确记录每条数据的生命周期,用极低的存储成本实现完整的历史追溯能力。这一篇用详细的代码解释其工作流程。
曹牧
2 天前
java
·
数据仓库
·
hive
·
hadoop
Java Web 开发:servlet-mapping
在 Java Web 开发中,servlet-mapping 是用于将特定的 URL 路径映射到对应的 Servlet 类的关键配置元素。它定义了客户端请求的 URL 与服务器端处理该请求的 Servlet 之间的对应关系。 核心作用
juniperhan
2 天前
大数据
·
数据仓库
·
分布式
·
sql
·
flink
Flink 系列第20篇:Flink SQL 语法全解:从 DDL 到 DML,窗口、聚合、列转行一网打尽
在 Flink SQL 中,一切计算的起点都是 CREATE 语句。它负责向当前或指定的 Catalog 中注册库、表、视图或函数。你可以像在传统数据库中一样,使用 CREATE DATABASE、CREATE TABLE、CREATE VIEW 和 CREATE FUNCTION 来搭建自己的元数据体系。
哥本哈士奇
3 天前
数据仓库
数据仓库笔记 第五篇:Data Mart 层(数据集市)
什么是 Data Mart?Data Mart(数据集市)是数据仓库的面向主题的子集,专门为特定业务部门或分析场景服务。 我个人建议,前端BI工具,无论是Power BI或者是Tableau,都从这一层取数据,这样一来可以提高前端报表性能,同时也可以降低前端工具的建模难度。 此笔记使用的数据库为SQLServer,相应的示例脚本都围绕于此,其它数据库的相应实现会略有不同。
juniperhan
3 天前
java
·
大数据
·
数据仓库
·
分布式
·
flink
Flink 系列第18篇:Flink 动态表、连续查询与 Changelog 机制
动态表(Dynamic Table)和连续查询(Continuous Query)是 Flink Table API / SQL 实现流批统一与标准关系代数语义的两大核心理论基础。
juniperhan
3 天前
java
·
大数据
·
数据仓库
·
分布式
·
sql
·
flink
Flink 系列第19篇:深入理解 Flink SQL 的时间语义与时区处理:从原理到实战
在大数据实时计算领域,时间就像空气一样无处不在却又极易被忽视。你也许曾为“明明数据已经来了,窗口为什么迟迟不触发”而抓狂,也可能被“每天零点统计的指标总是对不上”折磨到怀疑人生。这些问题的背后,往往都指向同一个元凶——时间语义和时区处理。今天,我们就以 Flink SQL 为主线,把时间属性、Watermark、时区转换、窗口对齐等一系列概念掰开揉碎,一次性讲透。
哥本哈士奇
4 天前
数据仓库
数据仓库笔记 第三篇:常用缓慢变化维处理方式介绍
数据仓库可以帮助我们追溯数据的历史变化,其中最主要的一个方法就是缓慢变化维。 此篇主要介绍最常用的缓慢变化维:Type1, Type2, Type3。 此笔记使用的数据库为SQLServer,相应的示例脚本都围绕于此,其它数据库的相应实现会略有不同。
哥本哈士奇
4 天前
数据仓库
数据仓库笔记 第一篇:数据仓库的定义、历史与意义
数据仓库(Data Warehouse,简称 DW 或 DWH)是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策。
哥本哈士奇
4 天前
数据仓库
数据仓库笔记 第四篇:Star Schema 层(维度建模)
Star Schema(星型模型)是 Ralph Kimball 提出的维度建模方法,是数据仓库面向分析的核心层。 此笔记使用的数据库为SQLServer,相应的示例脚本都围绕于此,其它数据库的相应实现会略有不同。
RestCloud
4 天前
数据仓库
·
etl
·
零售
·
数据处理
·
数据集成
·
数据传输
·
数据同步
零售行业全渠道数据整合:ETL工具如何支撑精准营销?
在全渠道零售时代,消费者的购物行为日益复杂,数据成为企业最宝贵的资产。然而,碎片化的数据孤岛、低质量的数据资产、割裂的客户视图,成为阻碍零售企业实现精准营销的三大障碍。ETL(提取、转换、加载)工具作为数据整合的关键技术,正在为零售企业打开全渠道数据整合与精准营销的新局面。
哥本哈士奇
4 天前
数据仓库
数据仓库笔记 第二篇:PSA 层(持久化暂存区)详解
PSA(Persistent Staging Area,持久化暂存区)是数据仓库的第一层持久化存储,直接接收从业务系统抽取的数据,并长期保存所有历史版本。 作为数据库的第一层,叫法很多,也有叫stage,也有叫OBS,标准不是非常的统一。在我的系列笔记里都统一使用psa的这个叫法。 此笔记使用的数据库为SQLServer,相应的示例脚本都围绕于此,其它数据库的相应实现会略有不同。 此篇对于PSA层数据的更新,采用的是快照的方式。这种方式适合处理数据量比较小的场景,实际操作中,SCD2是被选择最多的。会在后
juniperhan
5 天前
大数据
·
数据仓库
·
分布式
·
sql
·
flink
Flink 系列第17篇:Flink Table&SQL 核心概念、原理与实战详解
Apache Flink 提供 Table API 和 SQL API 两套关系型 API,核心目标是统一流处理与批处理,是 Flink 高阶数据处理的核心能力。两套 API 底层基于 Apache Calcite 框架实现 SQL 解析、校验、优化,屏蔽了流批引擎差异。
QEasyCloud2022
5 天前
数据仓库
企业数据仓库建设实践与价值分析
在企业数字化运营过程中,多业务系统并行已成为常态。以电商及供应链企业为例,通常会同时使用旺店通、领星ERP、金蝶云星空等系统分别处理订单仓储、跨境业务、财务供应链等工作。这种分散式系统架构带来了显著的数据管理挑战。
地球资源数据云
6 天前
大数据
·
数据结构
·
数据库
·
数据仓库
·
人工智能
1951-2025年中国逐年1千米逐月总降水量区域统计数据集_年表_县
摘要:本数据集为中国1000米分辨率逐月总降水量数据集(1951-2025)衍生生成的“1951-2025年中国逐年1千米逐月总降水量区域统计数据集”区域统计产品,统计范围为中国县级行政区,输出格式为CSV。结果面向区域平均水平、总量和离散程度分析,可直接支持区域差异比较与时间序列研究。
SelectDB技术团队
6 天前
数据库
·
数据仓库
·
实时分析
·
selectdb
Apache Doris 4.1:面向 AI & Search 的统一数据存储与检索底座
AI 时代,数据库已成为智能 Agent、RAG 系统、大模型应用和 AI 可观测平台 的基础设施。它不仅要能存结构化数据,更要能承载长上下文、向量、全文、Trace、事件流等新型数据。不仅要能分析,更要能实时检索、混合召回、在线服务和系统治理。
juniperhan
6 天前
java
·
大数据
·
数据仓库
·
分布式
·
flink
Flink 系列第16篇:Flink 核心数据类型类详解(POJO、Row、Tuple)
在 Flink 编程中,POJO、Row、Tuple 是最常用的三大核心数据类型类,分别适用于不同的业务场景。本文将详细解析三者的定义、使用方法、优势劣势及适用场景,帮助开发者快速选择合适的数据类型。