ETL工具的秘密武器--Streamsets安装部署及服务访问

StreamSets是一款用于数据流操作和数据集成的ETL工具。它提供了一个可视化的界面,使用户能够轻松地构建、监控和管理数据流管道。旨在帮助企业实现数据流的可靠、高效和可管理的处理。

它提供了直观的界面和丰富的功能,使用户能够轻松地收集、转换和传输数据,无论是在批处理还是实时流处理场景中。StreamSets支持各种数据源和目标,包括关系型数据库、大数据平台、云服务等,使用户能够灵活地构建数据流管道,实现数据的自动化流动和处理。

主要特征如下:

  • 数据收集:从各种数据源收集数据,包括文件、数据库、云服务等。
  • 数据处理:提供了强大的数据处理工具,可以对数据进行清洗、转换、过滤等操作。
  • 数据加载:将处理后的数据加载到各种目标系统,包括数据库、数据仓库、数据湖等。

接下来讲解下该软件的安装部署流程:相比其他软件,streamsets的安装部署流程非常简单,不过由于从3.14.0之后的所有版本安装部署后都需要注册才能使用,且官网已经无法进行操作,所以高版本的只能破解后的安装包方可正常使用

1、安装前的系统参数优化

首先修改操作系统的 open files 限制数量。命令如下

vi /etc/security/limits.conf

在文件末尾添加如下两行信息:

markdown 复制代码
* soft nofile 102400
* hard nofile 102400

2、下载安装包

本文不提供下载操作,如果需要,大家自行解决。 本文安装的版本如下图

3、解压并运行

1、解压安装包

css 复制代码
tar xvzf streamsets-datacollector-all-***.tgz

2、进入bin目录

bash 复制代码
cd streamsets-datacollector-***/bin/

3、运行服务

bash 复制代码
./streamsets dc 

上述命令退出命令行后程序自动关闭了,如需后台运行执行如下命令

bash 复制代码
nohup bin/streamsets dc >/dev/null 2>&1 &(如果启动不了,可以试试nohup bin/streamsets dc 2>&1 &在nohup.out文件中查看日志信息)

4、服务访问

在浏览器输入如下路径:

arduino 复制代码
http://ip:18630/

默认用户名密码为 admin/admin

出现如下界面即代表安装成功

5、组件库查看

登录成功后,我们可以在Package Manager列表栏查看所有的组件库,如下图,后期的所有管道任务都是基于组件开发,所以我们要保证安装的版本要包含常用的组件。

至此,软件的安装部署及服务访问已完成,后续文章会重点讲解下服务的使用场景及组件的案例展示,希望对大家使用streamsets能否有所帮助!

相关推荐
雪碧没有冰块1 小时前
Flink源码剖析
大数据·flink
kkivivu2 小时前
家庭用超声波清洗机好用吗?推荐四款性能绝佳的超声波清洗机!
大数据
大G哥3 小时前
ELK日志收集之ES的DSL查询语句
大数据·elk·elasticsearch·搜索引擎·jenkins
青云交3 小时前
大数据新视界 --大数据大厂之数据质量评估指标与方法:提升数据可信度
大数据·sql·一致性·完整性·数据质量评估·数据可信度·准确性·时效性
黄焖鸡能干四碗3 小时前
【需求分析】软件系统需求设计报告,需求分析报告,需求总结报告(原件PPT)
大数据·人工智能·安全·测试用例·需求分析
kaka.liulin -study3 小时前
LLM 构建Data Multi-Agents 赋能数据分析平台的实践之⑥:NL2SQL技术探讨
数据挖掘·数据分析
YONG823_API5 小时前
电商平台数据批量获取自动抓取的实现方法分享(API)
java·大数据·开发语言·数据库·爬虫·网络爬虫
小艳加油6 小时前
ChatGPT+R语言助力生态环境数据统计分析!回归与混合效应模型、多元统计分析、结构方程模型(SEM)(lavaan)、Meta分析、贝叶斯回归等
chatgpt·数据分析·r语言·数据处理·生态环境
人工智障调包侠7 小时前
基于深度学习多层感知机进行手机价格预测
人工智能·python·深度学习·机器学习·数据分析
Data 3178 小时前
Hive数仓操作(十)
大数据·数据库·数据仓库·hive·hadoop