ETL工具的秘密武器--Streamsets安装部署及服务访问

StreamSets是一款用于数据流操作和数据集成的ETL工具。它提供了一个可视化的界面,使用户能够轻松地构建、监控和管理数据流管道。旨在帮助企业实现数据流的可靠、高效和可管理的处理。

它提供了直观的界面和丰富的功能,使用户能够轻松地收集、转换和传输数据,无论是在批处理还是实时流处理场景中。StreamSets支持各种数据源和目标,包括关系型数据库、大数据平台、云服务等,使用户能够灵活地构建数据流管道,实现数据的自动化流动和处理。

主要特征如下:

  • 数据收集:从各种数据源收集数据,包括文件、数据库、云服务等。
  • 数据处理:提供了强大的数据处理工具,可以对数据进行清洗、转换、过滤等操作。
  • 数据加载:将处理后的数据加载到各种目标系统,包括数据库、数据仓库、数据湖等。

接下来讲解下该软件的安装部署流程:相比其他软件,streamsets的安装部署流程非常简单,不过由于从3.14.0之后的所有版本安装部署后都需要注册才能使用,且官网已经无法进行操作,所以高版本的只能破解后的安装包方可正常使用

1、安装前的系统参数优化

首先修改操作系统的 open files 限制数量。命令如下

vi /etc/security/limits.conf

在文件末尾添加如下两行信息:

markdown 复制代码
* soft nofile 102400
* hard nofile 102400

2、下载安装包

本文不提供下载操作,如果需要,大家自行解决。 本文安装的版本如下图

3、解压并运行

1、解压安装包

css 复制代码
tar xvzf streamsets-datacollector-all-***.tgz

2、进入bin目录

bash 复制代码
cd streamsets-datacollector-***/bin/

3、运行服务

bash 复制代码
./streamsets dc 

上述命令退出命令行后程序自动关闭了,如需后台运行执行如下命令

bash 复制代码
nohup bin/streamsets dc >/dev/null 2>&1 &(如果启动不了,可以试试nohup bin/streamsets dc 2>&1 &在nohup.out文件中查看日志信息)

4、服务访问

在浏览器输入如下路径:

arduino 复制代码
http://ip:18630/

默认用户名密码为 admin/admin

出现如下界面即代表安装成功

5、组件库查看

登录成功后,我们可以在Package Manager列表栏查看所有的组件库,如下图,后期的所有管道任务都是基于组件开发,所以我们要保证安装的版本要包含常用的组件。

至此,软件的安装部署及服务访问已完成,后续文章会重点讲解下服务的使用场景及组件的案例展示,希望对大家使用streamsets能否有所帮助!

相关推荐
WoShop商城源码1 小时前
武汉迅狐科技:AI赋能企业营销,打造智能获客新范式
大数据·人工智能·科技
Andya_net1 小时前
Elasticsearch | ES索引模板、索引和索引别名的创建与管理
大数据·elasticsearch·jenkins
阿里云大数据AI技术2 小时前
用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践
大数据·云原生·数据分析
EasyGBS2 小时前
国标GB28181视频平台EasyCVR顺应智慧农业自动化趋势,打造大棚实时视频监控防线
大数据·网络·人工智能·安全·音视频
TDengine (老段)3 小时前
TDengine 窗口预聚集
大数据·数据库·物联网·时序数据库·tdengine·iotdb
TDengine (老段)3 小时前
TDengine JAVA 语言连接器
java·大数据·数据库·物联网·时序数据库·iot·tdengine
工作中的程序员11 小时前
flink Shuffle的总结
大数据·flink
EasyGBS14 小时前
如何实现两个视频融合EasyCVR平台的数据同步?详细步骤指南
大数据·网络·人工智能·安全·音视频
理智的煎蛋15 小时前
es 原生linux部署集群
大数据·linux·服务器·elasticsearch
谬了个大也16 小时前
es --- 集群数据迁移
大数据·elasticsearch