ETL工具之Streamsets实战系列(五) -- 采集excel表格数据入库

1、业务背景

前几篇文章中,我们分别介绍了streamsets在不同业务场景下的数据采集问题,有兴趣的可以自行翻阅:

Streamsets实战系列(一) -- 获取日志文件变更信息并入库

Streamsets实战系列(二) -- 采集第三方https接口数据并入库

Streamsets实战系列(三) -- Mysql Binlog数据变更同步到目标库

Streamsets实战系列(四) -- Mysql Binlog数据变更同步到Kafka

本文我们重点介绍下streamsets读取excel表格数据并实现入库的过程。

假如你是一家电商公司,每天需要处理大量的订单数据。这些订单数据包括商品编码、名称、价格、库存等信息。过去,你可能一直使用Excel表格来记录和处理这些数据,但随着公司业务的发展,商品和订单数量不断增加,Excel表格已经无法满足你的需求。

为了提高工作效率,我们需要一些自动化工具来读取Excel表格中的数据并帮助我们完成数据的采集过程。具体来说,你可以使用StreamSets的Excel输入插件。该插件支持多种格式的Excel文件,并且可以根据你的需要进行配置。经过一系列处理器组件处理加工后,实现数据入库的需求。

接下来,我们演示下如何通过实际的管道配置实现该需求的操作过程

2、流程实现

采集excel表格数据入库时,流程的完整管道示意图如下所示:

具体实现按照以下步骤进行操作:

2.1 创建管道任务

在SDC中创建一个新的Pipeline,请参考之前的方式即可,此处不再详细介绍

2.2 选择源并添加配置信息

Directory组件的配置如下:

文件中的内容如下:

数据格式配置如下

2.3 分割器组件配置

该配置的作用是将表格中商品信息分割成两个字段,以便进行数据库存储

2.4 表达式组件配置

该组件的配置信息表示操作类型为新增,即将表格中数据插入到数据库

2.5 目标源配置

配置数据库连接信息、库名和表名

高级配置如下:

配置目标源的数据库和密码

2.6 启动任务并测试

测试流程比较简单,只需要启动服务,观察目标库的数据变化即可。 数据如下:

3、总结

本文介绍了如何使用StreamSets采集Excel文件并将其入库到数据库中。通过本文的学习,大家应该对StreamSets的基本概念和操作方法有了更深入的了解,并且能够独立完成类似的数据采集任务。

当然,StreamSets的功能远不止于此。它还支持多种数据源和目标,可以进行复杂的数据转换和处理,以及实现实时数据流的采集和分析等。因此,如果您需要进行更高级的数据处理工作,大家可以自行学习StreamSets的相关知识和技术,也可以与小编进行互动交流。

相关推荐
夜泉_ly27 分钟前
MySQL -安装与初识
数据库·mysql
qq_529835351 小时前
对计算机中缓存的理解和使用Redis作为缓存
数据库·redis·缓存
月光水岸New4 小时前
Ubuntu 中建的mysql数据库使用Navicat for MySQL连接不上
数据库·mysql·ubuntu
狄加山6754 小时前
数据库基础1
数据库
我爱松子鱼4 小时前
mysql之规则优化器RBO
数据库·mysql
闲猫4 小时前
go orm GORM
开发语言·后端·golang
丁卯4044 小时前
Go语言中使用viper绑定结构体和yaml文件信息时,标签的使用
服务器·后端·golang
chengooooooo4 小时前
苍穹外卖day8 地址上传 用户下单 订单支付
java·服务器·数据库
Rverdoser5 小时前
【SQL】多表查询案例
数据库·sql
Galeoto5 小时前
how to export a table in sqlite, and import into another
数据库·sqlite