Starlake:一款免费开源的ETL数据管道工具

Starlake 是一款免费开源的 ETL 数据管道编排工具,可以通过声明式的配置方法(YAML、SQL)简化数据处理流程。

Starlake 项目主要基于 Scala 语言开发,遵循 Apache 2.0 开源协议,代码托管在 GitHub:

https://github.com/starlake-ai/starlake

功能特性

  • 丰富的数据源:包括 Apache Spark、Databricks、Apache Kafka、Amazon Redshift、DuckDB、DuckLake、Google BigQuery、Snowflake、PostgreSQL、 MySQL、Oracle、SQL Server、JDBC、本地文件(JSON、CSV、Excel、XML、Parquet 等)。
  • 零代码数据提取:通过 YAML 配置文件实现全量或者增量数据提取和加载,包括自动化的数据质量验证,数据隐私安全控制,应用行级和列级安全,整个不需要编写任何代码。
  • 低代码数据转换:基于 SQL 和 YAML 定义转换操作,自动化表级和字段级血缘关系。也可以通过 Python 脚本实现复杂的数据转换。
  • 自动化流程编排:Starlake 可以生成任务的有向无环图(DAG),通过集成 Airflow、Dagster 等流程编排工具实现流程自动化。
  • 数据治理和质量:支持每个操作节点的模式约束、规则验证、质量检查等措施确保数据一致性与合规性。
  • 多引擎与跨引擎:Starlake 支持为不同的任务模型使用不同的存储引擎,例如使用原生数据仓库引擎执行简单的加载操作,同时使用 Spark 引擎处理 XML 文件或者加载过程中的转换操作。
  • 本地化测试集成:Starlake 提供了一个转换编译器,可以将各种 SQL 实现转换为本地 DuckDB 语法,不需要配置额外的测试环境就可以验证数据加载、数据转换等流程。
  • VS Code 插件:支持 Starlake 配置语法高亮、模式验证、SQL 代码片段、数据管道可视化等功能。

下载安装

Starlake 支持本地部署,使用 Docker 进行安装体验的命令如下:

复制代码
# 拉取最新镜像
docker pull starlakeai/starlake:latest

# 验证安装
docker run -it starlakeai/starlake:latest help

然后可以参照以下指南和教程构建数据处理管道:

https://docs.starlake.ai/category/guides--tutorials

总结

Starlake 提供了一种基于配置的低代码数据集成管道和数据治理解决方案。

相关推荐
Aloudata1 天前
高并发指标中台选型:Aloudata CAN 横向扩展与架构稳定性深度评估
数据库·架构·数据分析·etl·指标平台
Aloudata1 天前
数据工程实践:Aloudata CAN 如何通过 NoETL 实现真·管研用一体?
大数据·数据分析·数据治理·etl·指标平台
charlie1145141912 天前
嵌入式C++教程——ETL(Embedded Template Library)
开发语言·c++·笔记·学习·嵌入式·etl
Aloudata2 天前
数据工程实践:NoETL 指标平台落地周期与人力投入深度测算
数据分析·etl·指标平台
星沙丘秋2 天前
Kettle9入门、使用经验与5个问题
数据库·sql·etl
千桐科技2 天前
qData 数据中台开源版 1.1.2 版本更新公告:新增 Apache Doris 数据源全面支持,稽查规则与转换组件持续完善
开源软件·数据治理·doris·数据集成·大数据平台·数据中台·qdata
铬仁2 天前
kettle 9.2 连接达梦DM Database Server 64 V8
数据库·etl
ApacheSeaTunnel3 天前
Apache SeaTunnel Zeta、Flink、Spark 怎么选?底层原理 + 实战对比一次讲透
大数据·flink·spark·开源·数据集成·seatunnel·数据同步
Aloudata3 天前
数据工程指南:指标平台选型避坑与 NoETL 语义编织技术解析
sql·数据分析·自动化·etl·指标平台
WJX_KOI3 天前
保姆级教程:Apache Seatunnel CDC(standalone 模式)部署 MySQL CDC、PostgreSQL CDC 及使用方法
java·大数据·mysql·postgresql·big data·etl