ETL工具之Streamsets实战系列(五) -- 采集excel表格数据入库

1、业务背景

前几篇文章中,我们分别介绍了streamsets在不同业务场景下的数据采集问题,有兴趣的可以自行翻阅:

Streamsets实战系列(一) -- 获取日志文件变更信息并入库

Streamsets实战系列(二) -- 采集第三方https接口数据并入库

Streamsets实战系列(三) -- Mysql Binlog数据变更同步到目标库

Streamsets实战系列(四) -- Mysql Binlog数据变更同步到Kafka

本文我们重点介绍下streamsets读取excel表格数据并实现入库的过程。

假如你是一家电商公司,每天需要处理大量的订单数据。这些订单数据包括商品编码、名称、价格、库存等信息。过去,你可能一直使用Excel表格来记录和处理这些数据,但随着公司业务的发展,商品和订单数量不断增加,Excel表格已经无法满足你的需求。

为了提高工作效率,我们需要一些自动化工具来读取Excel表格中的数据并帮助我们完成数据的采集过程。具体来说,你可以使用StreamSets的Excel输入插件。该插件支持多种格式的Excel文件,并且可以根据你的需要进行配置。经过一系列处理器组件处理加工后,实现数据入库的需求。

接下来,我们演示下如何通过实际的管道配置实现该需求的操作过程

2、流程实现

采集excel表格数据入库时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,请参考之前的方式即可,此处不再详细介绍

2.2 选择源并添加配置信息

Directory组件的配置如下:

文件中的内容如下:

数据格式配置如下

2.3 分割器组件配置

该配置的作用是将表格中商品信息分割成两个字段,以便进行数据库存储

2.4 表达式组件配置

该组件的配置信息表示操作类型为新增,即将表格中数据插入到数据库

2.5 目标源配置

配置数据库连接信息、库名和表名

高级配置如下:

配置目标源的数据库和密码

2.6 启动任务并测试

测试流程比较简单,只需要启动服务,观察目标库的数据变化即可。 数据如下:

3、总结

本文介绍了如何使用StreamSets采集Excel文件并将其入库到数据库中。通过本文的学习,大家应该对StreamSets的基本概念和操作方法有了更深入的了解,并且能够独立完成类似的数据采集任务。

当然,StreamSets的功能远不止于此。它还支持多种数据源和目标,可以进行复杂的数据转换和处理,以及实现实时数据流的采集和分析等。因此,如果您需要进行更高级的数据处理工作,大家可以自行学习StreamSets的相关知识和技术,也可以与小编进行互动交流。

相关推荐
麦兜*9 分钟前
MongoDB 常见错误解决方案:从连接失败到主从同步问题
java·数据库·spring boot·redis·mongodb·容器
计算机编程-吉哥22 分钟前
大数据毕业设计-基于Python的中文起点网小说数据分析平台(高分计算机毕业设计选题·定制开发·真正大数据)
大数据·hadoop·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
RestCloud23 分钟前
PostgreSQL大表同步优化:如何避免网络和内存瓶颈?
前端·数据库·api
阿里云大数据AI技术27 分钟前
淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
数据库·flink
努力学习的小廉40 分钟前
深入了解linux系统—— 线程同步
linux·服务器·数据库·算法
计算机学姐1 小时前
基于Python的旅游数据分析可视化系统【2026最新】
vue.js·后端·python·数据分析·django·flask·旅游
格调UI成品1 小时前
DCS+PLC协同优化:基于MQTT的分布式控制系统能效提升案例
数据库·云边协同
该用户已不存在1 小时前
你没有听说过的7个Windows开发必备工具
前端·windows·后端
鸿乃江边鸟2 小时前
Flink中的 BinaryRowData 以及大小端
大数据·sql·flink
David爱编程2 小时前
深入 Java synchronized 底层:字节码解析与 MonitorEnter 原理全揭秘
java·后端