技术栈
分析工程
梦想画家
8 天前
数据工程
·
分析工程
SQLMesh系列教程-3:SQLMesh模型属性详解
SQLMesh 的 MODEL 提供了丰富的属性,用于定义模型的行为、存储、调度、依赖关系等。通过合理配置这些属性,可以构建高效、可维护的数据管道。在 SQLMesh 中,MODEL 是定义数据模型的核心结构,初学SQLMesh,定义模型看到属性会很迷惑,本文主要解释sqlmesh的模型属性,为后续继续学习打基础。
梦想画家
21 天前
数据集成
·
airflow
·
分析工程
Airflow:深入理解Apache Airflow Task
Apache Airflow是一个开源工作流管理平台,支持以编程方式编写、调度和监控工作流。由于其灵活性、可扩展性和强大的社区支持,它已迅速成为编排复杂数据管道的首选工具。在这篇博文中,我们将深入研究Apache Airflow 中的任务概念,探索不同类型的任务,如何创建它们,以及各种最佳实践。
梦想画家
2 个月前
数据分析
·
json
·
数据工程
·
duckdb
·
分析工程
DuckDB:JSON数据探索性分析实战教程
简单来说,EDA通常指的是数据集的任何初始处理。通常,这些是较小的数据集,是较大数据集的子集,但你也可以使用大数据执行EDA。在本文中,你将扮演SecOps分析师的角色,对EDR( Endpoint Detection and Response:端点检测和响应)数据的快照执行EDA,这些数据可能来自主流工具。
梦想画家
2 个月前
数据工程
·
duckdb
·
分析工程
DuckDB: 从MySql导出数据至Parquet文件
在这篇文章中,介绍使用DuckDB将数据从MySQL数据库无缝传输到Parquet文件的过程。该方法比传统的基于pandas方法更高效、方便,我们可以从DuckDB cli实现,也可以结合Python编程方式实现,两者执行核心SQL及过程都一样。
梦想画家
2 个月前
数据工程
·
duckdb
·
分析工程
DuckDB快速入门教程
DuckDB是一个用c++编写的进程内OLAP DBMS,太复杂了。我们从简单的开始,好吗?DuckDB是用于分析的SQLite。它没有依赖关系,非常容易设置,并且经过优化可以对数据执行查询。本文将介绍什么是DuckDB,如何使用它,以及为什么它对你很重要。
梦想画家
2 个月前
数据工程
·
分析工程
Polars数据聚合与旋转实战教程
在这篇博文中,我们的目标是解决数据爱好者提出的一个常见问题:如何有效地从Polars DataFrame中创建汇总视图,以便在不同时间段或类别之间轻松进行比较。我们将使用一个实际的数据集示例来探索实现这一目标的各种方法。
梦想画家
3 个月前
数据治理
·
数据工程
·
分析工程
dbt 数据分析工程实战教程(汇总篇)
最近陆续写了数据分析工程相关的系列博客,主要包括dbt-core相关的实战教程。本文是阶段性整理回顾,希望为你学习数据工程领域知识提供帮助,后续会持续更新。
梦想画家
4 个月前
数据治理
·
数据转换
·
1024程序员节
·
数据工程
·
分析工程
理解dbt artifacts及其实际应用
dbt是数据分析领域的一种变革性工具,它使数据专业人员能够对仓库中的数据进行转换和建模。它的强大功能之一是生成dbt artifacts:dbt运行的结构化输出,提供对dbt项目及其操作的深入了解。
梦想画家
4 个月前
大数据
·
数据治理
·
数据工程
·
分析工程
Dbt增量策略模型实践指南
参考:dbt Incremental Strategies | Indicium Engineering (medium.com)
梦想画家
5 个月前
数据治理
·
数据工程
·
分析工程
DBT hook 实战教程
本文将介绍dbt中在模型和seed级别使用post-hook的几个具体示例。dbt中的Post-hooks是一个强大而简单的特性,它在构建模型之后(如果是pre-hook,甚至在此之前)执行SQL语句。这些语句实际上(几乎)可以是任何东西,从将表复制到另一个数据库/模式,或限制记录的数量,或重新格式化seed。我们将讨论的示例是指DuckDB,但是也可以适用于其他数据库。
梦想画家
5 个月前
数据仓库
·
数据转换
·
分析工程
dbt compile 命令及应用
编写dbt模型和存储过程有较大差异,比如不建议update和insert,大多数代码是select语句。同时需要引用jinja函数、复杂逻辑以及宏,这些差异经常让开发者不确定生成的模型是否满足需求。本文介绍dbt compile命令可以在开发过程中随时查看编译后的SQL语句,帮助开发者及时发现模型问题。
梦想画家
5 个月前
数据转换
·
数据工程
·
分析工程
dbt seed 命令及应用示例
DBT-core是一个命令行工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个强大特性是seed命令,它可以将CSV文件(称为“seed”)加载到数据仓库中。本教程将带你完成使用dbt seed命令的过程。