kettle从入门到精通第九十七课 ETL之kettle kettle资源仓库的5种方式

场景：接触kettle有一段时间了，kettle资源仓库的各种方式也都体验了一下，各自有自己的优缺点吧，今天有时间一起梳理下，互相探讨下。

1、文件仓库

文件仓库的意思kettle中设计的trans和job脚本文件放到本地文件，这种方式读取和保存速度相当快，适合单人作战模式。

2）点击Add按钮，选择File Repository选项设置文件仓库，如下图哦所示：

3）设置仓库名称和仓库文件路径，点击保存即可完成文件仓库的设置。

2、数据库仓库

数据库仓库的意思kettle中设计的trans和job脚本文件放数据库中，这种方式读取和保存速度比较慢（另外若由文件仓库转换为数据库仓库文件路径引用也会有问题），适合团队协作，不过Spoon中已经不推荐数据库仓库方式了，如下图所示。

1）新建数据库仓库schema，我们这里设置为etl。

2）填写数据库仓库名称，点击create按钮设置数据库连接，如下图所示：

填写数据库仓库连接信息，如下图所示：

选择我们刚才设置的连接，点击保存按钮，如下图所示：

3）点击Connect按钮，然后输入用户名和密码点击登录完成。这里的用户名和密码默认为admin/admin。

4）数据库仓库方式社群小伙伴在使用过程中也反馈体验不好，大家谨慎使用。

3、Pentaho Repository

Pentaho Repository 方式也是官方推荐的一个数据库仓库，不过该方法需要单独部署一个Pentaho server服务，适合团队协作，不过该方法也增加了部署的复杂性。

1）部署Pentaho server，我这里使用的pentaho-server-ce-10.2.0.3-335版本，然后通过start-pentaho.sh/start-pentaho.bat 脚本文件启动服务即可。

2）启动服务之后，访问http://localhost:8080/pentaho/Home，输入用户名和密码登录pentaho server服务,用户名和密码默认为admin/password，如下图所示：

3)在spoon中选择Pentaho Repository，然后填写pentaho server地址，点击保存。

4）点击Connect按钮，填写pentaho server的用户名和密码完成登录即可。

4、git+文件仓库

git+文件的意思是我们将我们本地文件仓库中的脚本文件推送的git仓库，可以是公司内部部署的gitlab，也可以是gitee或者github。一般情况下是放到公司内部部署的gitlab比较合适。

该方式适合团队协作且有版本管理功能，不过该方式需要开发者本地电脑安装git版本客户端，手动提交本地文件仓库到gitlab，使用时手动从gitlab拉取文件。

5、git插件+文件仓库

这里的git插件是我们团队研发的kettle的git插件，可以直接在spoon客户端中提交或者拉取trans或者job脚本，适合团队协作且有版本管理功能。

kettle从入门到精通 第九十七课 ETL之kettle kettle资源仓库的5种方式