ETL工具的秘密武器--Streamsets安装部署及服务访问

StreamSets是一款用于数据流操作和数据集成的ETL工具。它提供了一个可视化的界面,使用户能够轻松地构建、监控和管理数据流管道。旨在帮助企业实现数据流的可靠、高效和可管理的处理。

它提供了直观的界面和丰富的功能,使用户能够轻松地收集、转换和传输数据,无论是在批处理还是实时流处理场景中。StreamSets支持各种数据源和目标,包括关系型数据库、大数据平台、云服务等,使用户能够灵活地构建数据流管道,实现数据的自动化流动和处理。

主要特征如下:

  • 数据收集:从各种数据源收集数据,包括文件、数据库、云服务等。
  • 数据处理:提供了强大的数据处理工具,可以对数据进行清洗、转换、过滤等操作。
  • 数据加载:将处理后的数据加载到各种目标系统,包括数据库、数据仓库、数据湖等。

接下来讲解下该软件的安装部署流程:相比其他软件,streamsets的安装部署流程非常简单,不过由于从3.14.0之后的所有版本安装部署后都需要注册才能使用,且官网已经无法进行操作,所以高版本的只能破解后的安装包方可正常使用

1、安装前的系统参数优化

首先修改操作系统的 open files 限制数量。命令如下

vi /etc/security/limits.conf

在文件末尾添加如下两行信息:

markdown 复制代码
* soft nofile 102400
* hard nofile 102400

2、下载安装包

本文不提供下载操作,如果需要,大家自行解决。 本文安装的版本如下图

3、解压并运行

1、解压安装包

css 复制代码
tar xvzf streamsets-datacollector-all-***.tgz

2、进入bin目录

bash 复制代码
cd streamsets-datacollector-***/bin/

3、运行服务

bash 复制代码
./streamsets dc 

上述命令退出命令行后程序自动关闭了,如需后台运行执行如下命令

bash 复制代码
nohup bin/streamsets dc >/dev/null 2>&1 &(如果启动不了,可以试试nohup bin/streamsets dc 2>&1 &在nohup.out文件中查看日志信息)

4、服务访问

在浏览器输入如下路径:

arduino 复制代码
http://ip:18630/

默认用户名密码为 admin/admin

出现如下界面即代表安装成功

5、组件库查看

登录成功后,我们可以在Package Manager列表栏查看所有的组件库,如下图,后期的所有管道任务都是基于组件开发,所以我们要保证安装的版本要包含常用的组件。

至此,软件的安装部署及服务访问已完成,后续文章会重点讲解下服务的使用场景及组件的案例展示,希望对大家使用streamsets能否有所帮助!

相关推荐
n***78681 分钟前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
语落心生1 分钟前
流式数据湖Paimon探秘之旅 (一) Paimon整体架构概览
数据分析
语落心生2 分钟前
流式数据湖Paimon探秘之旅 (四) FileStore存储引擎核心
大数据
语落心生6 分钟前
流式数据湖Paimon探秘之旅 (三) Catalog体系深度解析
大数据
语落心生6 分钟前
流式数据湖Paimon探秘之旅 (六) 提交流程与事务保证
大数据
梦里不知身是客118 分钟前
帆软的图标类型介绍
python·信息可视化·数据分析
梦里不知身是客118 分钟前
容量调度器
大数据
跨境海外仓小秋24 分钟前
仓库如何实现自动汇总订单波次?TOPWMS波次规则助力海外仓拣货效率翻倍
大数据
民乐团扒谱机36 分钟前
【微实验】携程评论C#爬取实战:突破JavaScript动态加载与反爬虫机制
大数据·开发语言·javascript·爬虫·c#
涤生大数据42 分钟前
Spark分桶表实战:如何用分桶减少 40%+ 计算时间
大数据·sql·spark·分桶表·大数据校招·大数据八股