数据工程

梦想画家3 天前
数据分析·json·数据工程·duckdb·分析工程
DuckDB:JSON数据探索性分析实战教程简单来说,EDA通常指的是数据集的任何初始处理。通常,这些是较小的数据集,是较大数据集的子集,但你也可以使用大数据执行EDA。在本文中,你将扮演SecOps分析师的角色,对EDR( Endpoint Detection and Response:端点检测和响应)数据的快照执行EDA,这些数据可能来自主流工具。
梦想画家4 天前
数据工程·duckdb·分析工程
DuckDB: 从MySql导出数据至Parquet文件在这篇文章中,介绍使用DuckDB将数据从MySQL数据库无缝传输到Parquet文件的过程。该方法比传统的基于pandas方法更高效、方便,我们可以从DuckDB cli实现,也可以结合Python编程方式实现,两者执行核心SQL及过程都一样。
梦想画家5 天前
数据工程·duckdb·分析工程
DuckDB快速入门教程DuckDB是一个用c++编写的进程内OLAP DBMS,太复杂了。我们从简单的开始,好吗?DuckDB是用于分析的SQLite。它没有依赖关系,非常容易设置,并且经过优化可以对数据执行查询。本文将介绍什么是DuckDB,如何使用它,以及为什么它对你很重要。
梦想画家8 天前
数据工程·分析工程
Polars数据聚合与旋转实战教程在这篇博文中,我们的目标是解决数据爱好者提出的一个常见问题:如何有效地从Polars DataFrame中创建汇总视图,以便在不同时间段或类别之间轻松进行比较。我们将使用一个实际的数据集示例来探索实现这一目标的各种方法。
梦想画家1 个月前
数据治理·数据工程·分析工程
dbt 数据分析工程实战教程(汇总篇)最近陆续写了数据分析工程相关的系列博客,主要包括dbt-core相关的实战教程。本文是阶段性整理回顾,希望为你学习数据工程领域知识提供帮助,后续会持续更新。
梦想画家2 个月前
数据治理·数据转换·1024程序员节·数据工程·分析工程
理解dbt artifacts及其实际应用dbt是数据分析领域的一种变革性工具,它使数据专业人员能够对仓库中的数据进行转换和建模。它的强大功能之一是生成dbt artifacts:dbt运行的结构化输出,提供对dbt项目及其操作的深入了解。
梦想画家2 个月前
大数据·数据治理·数据工程·分析工程
Dbt增量策略模型实践指南参考:dbt Incremental Strategies | Indicium Engineering (medium.com)
梦想画家3 个月前
数据治理·数据工程·分析工程
DBT hook 实战教程本文将介绍dbt中在模型和seed级别使用post-hook的几个具体示例。dbt中的Post-hooks是一个强大而简单的特性,它在构建模型之后(如果是pre-hook,甚至在此之前)执行SQL语句。这些语句实际上(几乎)可以是任何东西,从将表复制到另一个数据库/模式,或限制记录的数量,或重新格式化seed。我们将讨论的示例是指DuckDB,但是也可以适用于其他数据库。
叶庭云3 个月前
人工智能·数据科学·数据异构性·数据工程·数据异质性
数据异质性与数据异构性的本质和举例说明🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/在现代数据科学与信息技术领域,“数据异质性” 与 “数据异构性” 是两个常见的概念。对于初学者而言,明确这两个概念的本质及其间的差异至关重要。本文旨在以简明易懂的方式,分别阐述这两个概念,并辅以实例,助您深入掌握。
梦想画家3 个月前
数据转换·数据工程·分析工程
dbt seed 命令及应用示例DBT-core是一个命令行工具,它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个强大特性是seed命令,它可以将CSV文件(称为“seed”)加载到数据仓库中。本教程将带你完成使用dbt seed命令的过程。
jia V iuww5205 个月前
数据工程
Large Scale Data Engineering EMATM0051
数字化营销工兵7 个月前
microsoft·fabric·数据工程·lakehouse·apachespark·datapipeline
微软如何打造数字零售力航母系列科普11 - 什么是Microsoft Fabric中的数据工程?目录1. Lakehouse(湖边小屋)2. Apache Spark Job Definition (作业定义)
卢延吉1 年前
数据工程
Data-Engineering with DatabricksData-EngineeringThe first step in enabling reproducible analytics and ML is to ingest diverse data from various sources, including structured and unstructured data, real-time streams, and batch processing. This requires an understanding of data ingestion