数据工程

梦想画家6 天前
数据工程·sqlmesh
SQLMesh 系列教程4- 详解模型特点及模型类型SQLMesh 作为一款强大的数据建模工具,以其灵活的模型设计和高效的增量处理能力脱颖而出。本文将详细介绍 SQLMesh 模型的特点和类型,帮助读者快速了解其强大功能。我们将深入探讨不同模型类型(如增量模型、全量模型、SCD Type 2 等)的适用场景和优势,并通过实际示例展示如何利用这些模型高效加载数据。无论你是数据工程师还是数据科学家,SQLMesh 都能为你提供强大的支持。让我们一起探索 SQLMesh 的魅力,解锁高效数据处理的新可能!
梦想画家7 天前
数据工程·分析工程
SQLMesh系列教程-3:SQLMesh模型属性详解SQLMesh 的 MODEL 提供了丰富的属性,用于定义模型的行为、存储、调度、依赖关系等。通过合理配置这些属性,可以构建高效、可维护的数据管道。在 SQLMesh 中,MODEL 是定义数据模型的核心结构,初学SQLMesh,定义模型看到属性会很迷惑,本文主要解释sqlmesh的模型属性,为后续继续学习打基础。
梦想画家22 天前
数据集成·airflow·数据工程
Airflow:深入理解Apache Airflow 调度器Apache Airflow 调度器是任何 Airflow 的关键组件,负责管理数据管道中任务的执行。一个经过良好调优的调度器能够确保您的任务高效且可靠地运行。在这篇博客文章中,我们将深入探讨 Airflow 调度器,涵盖其作用、工作原理、配置选项以及优化其性能的最佳实践。
梦想画家1 个月前
数据集成·数据工程
Airflow:TimeSensor感知时间条件在数据管道工作流中,任务可能需要在特定的时间执行,或者在继续之前等待一定的时间。为了满足这些需求,Apache Airflow提供了TimeSensor,这是一种内置Sensor,可以监控当前时间,并在达到指定时间时触发后续任务。在这篇博文中,我们将深入研究TimeSensor,涵盖它的特性、用例、实现、定制和最佳实践。
梦想画家2 个月前
数据集成·airflow·数据工程
Airflow:HttpSensor实现API驱动数据流程数据管道工作流通常依赖于api来访问、获取和处理来自外部系统的数据。为了处理这些场景,Apache Airflow提供了HttpSensor,这是一个内置的Sensor,用于监视HTTP请求的状态,并在满足指定条件时触发后续任务。在这篇博文中,我们将深入探讨HttpSensor,涵盖它的特性、用例、实现、自定义和最佳实践。
梦想画家2 个月前
数据集成·airflow·jinja·数据工程
Airflow:如何使用jinja模板和宏本文介绍Airflow模板技术,包括用于场景,jinja基本语法,以及Airflow中如何使用模板实现灵活的任务配置实现,最后通过示例展示如何使用Airflow模板。
梦想画家2 个月前
数据分析·json·数据工程·duckdb·分析工程
DuckDB:JSON数据探索性分析实战教程简单来说,EDA通常指的是数据集的任何初始处理。通常,这些是较小的数据集,是较大数据集的子集,但你也可以使用大数据执行EDA。在本文中,你将扮演SecOps分析师的角色,对EDR( Endpoint Detection and Response:端点检测和响应)数据的快照执行EDA,这些数据可能来自主流工具。
梦想画家2 个月前
数据工程·duckdb·分析工程
DuckDB: 从MySql导出数据至Parquet文件在这篇文章中,介绍使用DuckDB将数据从MySQL数据库无缝传输到Parquet文件的过程。该方法比传统的基于pandas方法更高效、方便,我们可以从DuckDB cli实现,也可以结合Python编程方式实现,两者执行核心SQL及过程都一样。
梦想画家2 个月前
数据工程·duckdb·分析工程
DuckDB快速入门教程DuckDB是一个用c++编写的进程内OLAP DBMS,太复杂了。我们从简单的开始,好吗?DuckDB是用于分析的SQLite。它没有依赖关系,非常容易设置,并且经过优化可以对数据执行查询。本文将介绍什么是DuckDB,如何使用它,以及为什么它对你很重要。
梦想画家2 个月前
数据工程·分析工程
Polars数据聚合与旋转实战教程在这篇博文中,我们的目标是解决数据爱好者提出的一个常见问题:如何有效地从Polars DataFrame中创建汇总视图,以便在不同时间段或类别之间轻松进行比较。我们将使用一个实际的数据集示例来探索实现这一目标的各种方法。
梦想画家3 个月前
数据治理·数据工程·分析工程
dbt 数据分析工程实战教程(汇总篇)最近陆续写了数据分析工程相关的系列博客,主要包括dbt-core相关的实战教程。本文是阶段性整理回顾,希望为你学习数据工程领域知识提供帮助,后续会持续更新。
梦想画家4 个月前
数据治理·数据转换·1024程序员节·数据工程·分析工程
理解dbt artifacts及其实际应用dbt是数据分析领域的一种变革性工具,它使数据专业人员能够对仓库中的数据进行转换和建模。它的强大功能之一是生成dbt artifacts:dbt运行的结构化输出,提供对dbt项目及其操作的深入了解。
梦想画家4 个月前
大数据·数据治理·数据工程·分析工程
Dbt增量策略模型实践指南参考:dbt Incremental Strategies | Indicium Engineering (medium.com)
梦想画家5 个月前
数据治理·数据工程·分析工程
DBT hook 实战教程本文将介绍dbt中在模型和seed级别使用post-hook的几个具体示例。dbt中的Post-hooks是一个强大而简单的特性,它在构建模型之后(如果是pre-hook,甚至在此之前)执行SQL语句。这些语句实际上(几乎)可以是任何东西,从将表复制到另一个数据库/模式,或限制记录的数量,或重新格式化seed。我们将讨论的示例是指DuckDB,但是也可以适用于其他数据库。
叶庭云5 个月前
人工智能·数据科学·数据异构性·数据工程·数据异质性
数据异质性与数据异构性的本质和举例说明🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/在现代数据科学与信息技术领域,“数据异质性” 与 “数据异构性” 是两个常见的概念。对于初学者而言,明确这两个概念的本质及其间的差异至关重要。本文旨在以简明易懂的方式,分别阐述这两个概念,并辅以实例,助您深入掌握。
梦想画家5 个月前
数据转换·数据工程·分析工程
dbt seed 命令及应用示例DBT-core是一个命令行工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个强大特性是seed命令,它可以将CSV文件(称为“seed”)加载到数据仓库中。本教程将带你完成使用dbt seed命令的过程。
jia V iuww5206 个月前
数据工程
Large Scale Data Engineering EMATM0051
数字化营销工兵9 个月前
microsoft·fabric·数据工程·lakehouse·apachespark·datapipeline
微软如何打造数字零售力航母系列科普11 - 什么是Microsoft Fabric中的数据工程?目录1. Lakehouse(湖边小屋)2. Apache Spark Job Definition (作业定义)
卢延吉1 年前
数据工程
Data-Engineering with DatabricksData-EngineeringThe first step in enabling reproducible analytics and ML is to ingest diverse data from various sources, including structured and unstructured data, real-time streams, and batch processing. This requires an understanding of data ingestion