技术栈
etl
西京刀客
21 小时前
开源
·
apache
·
etl
·
hop
开源 ETL(Extract,Transform,Load)工具之Apache Hop
1、Hop 最初(2019年底)是作为 Kettle(Pentaho Data Integration,PDI)的一个分支而启动的。Hop 是一个相对较新的项目,于 2020 年成为 Apache 软件基金会的顶级项目。它由 Kettle 的原始创建者 Tyler Mitchell 领导,旨在解决 PDI 中的一些限制,并提供更现代化的架构。
不剪发的Tony老师
1 天前
etl
·
数据集成
·
starlake
Starlake:一款免费开源的ETL数据管道工具
Starlake 是一款免费开源的 ETL 数据管道编排工具,可以通过声明式的配置方法(YAML、SQL)简化数据处理流程。
心勤则明
1 天前
人工智能
·
spring
·
etl
Spring AI 文档ETL实战:集成text-embedding-v4 与 Milvus
向量数据库Milvus嵌入模型text-embedding-v4Spring AI 提供了一套清晰且可扩展的 API 来实现 ETL(Extract, Transform, Load) 数据处理流程,这是构建 RAG 系统中最关键的一环。整个流程可以分为三个核心阶段:
RestCloud
3 天前
数据库
·
数据仓库
·
postgresql
·
etl
·
数据处理
·
数据传输
·
数据同步
PostgreSQL的数据集成之路:ETL+CDC实现实时多源聚合
在企业数据架构中,PostgreSQL凭借其强大的扩展性、事务一致性以及对JSON、GIS、时序数据的原生支持,已成为常见的开源数据库之一。然而,真正的挑战并非PostgreSQL本身的性能,而是如何高效、实时地将MySQL、TiDB、SQL Server、API等多源数据聚合到PostgreSQL中,构建统一、可信、可分析的数据资产。ETLCloud通过"ETL+CDC(Change Data Capture)"双轮驱动,将传统的T+1批量同步升级为分钟级甚至秒级的增量pipeline,让Postgre
呆呆小金人
6 天前
大数据
·
数据库
·
数据仓库
·
sql
·
数据库开发
·
etl
·
etl工程师
SQL入门: HAVING用法全解析
HAVING是标准 SQL 中用于筛选分组后结果的关键字,与WHERE筛选原始数据不同,HAVING专门作用于GROUP BY分组后的聚合结果,是实现 “分组统计后再过滤” 的核心工具。本文从基础概念到高级应用,全面解析HAVING的用法、与WHERE的区别及实战技巧。
西岭千秋雪_
14 天前
数据仓库
·
人工智能
·
spring boot
·
ai编程
·
etl
RAG核心特性:ETL
本文为个人学习笔记整理,仅供交流参考,非专业教学资料,内容请自行甄别。ETL是RAG知识库的核心特性之一,包含了抽取,转换,加载三部分,其主要作用是对用户提供的知识库文档,进行处理,是存入向量数据库的前置操作。 文档在在Spring AI中的体现是document对象。不仅是文本,还包含其他类型的数据,以及元信息。ETL管道有三个主要组成部分:
Hello.Reader
14 天前
flink
·
php
·
etl
优化 Flink 基于状态的 ETL少 Shuffle、不膨胀、可落地的工程
核心对策:先压缩再重分区,增量代替明细,生命周期严格管理。同 Key、同并行度、同分区器维表 Broadcast-Hash Join(小表)
孟意昶
15 天前
大数据
·
数据仓库
·
sql
·
ui
·
spark
·
etl
Spark专题-第三部分:性能监控与实战优化(1)-认识spark ui
Spark UI 是 Spark 提供的 Web 监控界面,用于实时查看应用程序的执行状态、性能指标和资源配置。
LgZhu(Yanker)
15 天前
信息可视化
·
数据分析
·
etl
·
bi
·
大屏
40、企业智能决策引擎:BI分析平台的架构设计与业务实践
在所有数字化工程建设过程中,分析报表类是最重要的一项内容,本人曾经为船厂ERP项目主导过BI平台的建设工作,可以不夸张的讲,如果没有最终构建在120多张报表基础之上的BI分析平台,那么ERP项目最终只能以失败告终,无论是各部门的负责人,还是公司高层,由于这套来自欧洲的ERP天生就没有符合中国业务习惯的数据分析报表,导致一套流程运行下来,没有地方看到能够帮助他们决策的数据,价值归零。接下来,我们就全面拆解现代 BI 分析平台的架构体系与应用场景,从数据可视化到深度分析,讲讲企业该如何打造扎实的数据决策能力。
isNotNullX
16 天前
大数据
·
数据仓库
·
人工智能
·
架构
·
etl
ETL详解:从核心流程到典型应用场景
目录一、ETL的核心流程1. Extract(抽取)2. Transform(转换)3. Load(加载)
不剪发的Tony老师
16 天前
数据库
·
etl
·
dbswitch
dbswitch:一款免费开源、功能强大的异构数据库迁移同步工具
dbswitch 是一款免费开源、功能强大的异构数据库迁移同步工具,能够提供源端数据库向目的端数据库的离线批量迁移同步功能,支持数据的全量、增量、变化量方式同步。
亚林瓜子
17 天前
hadoop
·
spark
·
云计算
·
etl
·
aws
AWS中国云中的ETL之从aurora搬数据到s3(Glue版)
需要将数据定时每天从Aurora搬数据到S3中。这里用的Aurora实际上是Mysql,所以,这里创建一个Mysql账号,然后,在Secrets Manager 设置好自动轮转即可。具体如下:
Hello.Reader
20 天前
flink
·
etl
·
原型模式
用 Flink DataStream API 搭建流式 ETL从无状态到有状态、从单流到连接流
ETL 的本质:从多源抽取 → 转换/富化 → 入库/下发。 在 Flink 里你有两条主路:建议:以 SQL 为主,遇到复杂逻辑/时序/状态机型问题切到 DataStream。理解 DataStream 的底层模型,会让你在 SQL 瓶颈时有“降级控制”的抓手。
北冥SP
20 天前
数据仓库
·
etl
etl介绍
在大数据架构中,ETL(Extract, Transform, Load)是一个核心的数据处理环节,通常位于数据源与数据存储/分析系统之间,是构建数据仓库、数据湖或数据中台的关键步骤。
孟意昶
22 天前
大数据
·
数据仓库
·
sql
·
spark
·
etl
Spark专题-第二部分:Spark SQL 入门(4)-算子介绍-Exchange
本来没想这么快引入这个算子的,但写完上一篇Aggregate后发现很自然的引出了Exchange,那就顺手带出来吧