目录
一、Kettle介绍
Kettle 是一个开源的 ETL (Extract, Transform, Load,提取、转换、加载)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment,广泛应用于数据集成、数据清洗、数据迁移等领域。它的名字"Kettle "源自其"装置"功能的含义,即"把各种数据源像水一样提取出来并进行处理"。在2006年被Pentaho公式收购后,重命名为 Pentaho Data Integration(PDI),这个工具能够帮助用户在不同的数据源和目标系统之间进行数据转换、清洗和加载。Kettle 被广泛用于构建数据仓库、数据集成平台等。
二、界面介绍
![](https://i-blog.csdnimg.cn/direct/0af67d30ff4743b7bfe224f864ca926b.png)
1.界面构成
菜单栏 :包括【文件(F)】【编辑】【视图】【执行】【工具】【帮助】6个菜单项
快捷菜单图标栏 :从左到右分别为【新建文件】【打开文件】【探索资源库】【保存文件】【使用不同名称保存文件】【视图类型】
标题栏 :显示界面标题名称,欢迎界面的标题为"欢迎!"
2、菜单栏详细介绍
2.1 【文件F】
![](https://i-blog.csdnimg.cn/direct/e4373bfff1334d029b3f315356d0dee4.png)
菜单项 | 功能说明 |
---|---|
新建 → 转换 | 依次单击【新建】→【转换】菜单项,或使用Ctrl+N快捷键,创建一个转换工程 |
新建 → 作业(J) | 依次单击【新建】→【作业(J)】菜单项,或使用Ctrl+Alt+N快捷键,创建一个任务工程 |
新建 → 数据库连接 | 在转换工程或任务过程中,依次单击【新建】→【数据库连接】菜单项,创建一个数据库连接 |
打开 | 提供打开现有Kettle文件(如转换、作业等)的功能 |
打开最近的配置 | 显示最近打开过的文件列表,方便快速重新打开 |
关闭 | 关闭当前打开的Kettle文件 |
关闭所有 | 关闭所有打开的Kettle文件 |
保存 | 保存当前打开的Kettle文件的更改 |
另存为 | 将当前打开的Kettle文件保存到新的位置或文件名下 |
打印 | 提供打印当前打开的Kettle文件内容的功能 |
从XML文件导入 | 从XML格式的文件中导入Kettle对象或配置 |
导出 | 将当前打开的Kettle文件或对象导出为XML格式或其他指定格式 |
退出 | 关闭Kettle应用程序 |
2.2 【编辑】
![](https://i-blog.csdnimg.cn/direct/313798d9cbbd4796a78e8d221569ed7d.png)
菜单项 | 功能说明 |
---|---|
撤销 | 撤销上一步对转换或作业所做的更改 |
新步骤 | 在转换或作业中添加一个新的步骤(具体步骤类型需用户选择) |
重做 | 如果之前进行了撤销操作,此选项将允许您重做那一步。但在某些情况下,如果撤销操作不可逆转或没有可重做的步骤,此选项可能不可用 |
剪切 | 剪切当前选中的步骤或对象,将其移动到剪贴板中,以便在其他位置粘贴 |
复制所选的步骤到剪贴板 | 将当前选中的步骤或对象复制到剪贴板中,以便在其他位置粘贴相同的步骤或对象 |
复制文件 | 此功能可能用于复制转换或作业中引用的文件到指定位置,但具体实现可能依赖于Kettle的版本和上下文环境 |
从剪贴板复制步骤 | 从剪贴板中粘贴之前剪切或复制的步骤或对象到当前位置 |
复制转换图片到剪贴板 | 将当前转换的图形表示复制到剪贴板中,以便在其他应用程序(如图像编辑器或文档处理器)中粘贴 |
清除选择 | 取消当前所有选中的步骤或对象的选择状态 |
选择所有的步骤 | 选择转换或作业中的所有步骤或对象 |
搜索元数据 | 在转换或作业中搜索特定的元数据,如数据库连接、变量名等 |
设置环境变量 | 添加或修改环境变量,这些变量可以在转换或作业执行时被引用 |
显示环境变量 | 显示当前可用的所有环境变量及其值 |
编辑kettle.properties文件 | 打开并编辑Kettle的配置文件kettle.properties ,该文件包含Kettle的全局设置和配置 |
显示参数(u) | 显示当前转换或作业中定义的参数及其值。参数可以用于在转换或作业之间传递信息或控制行为 |
2.3 【视图】
![](https://i-blog.csdnimg.cn/direct/3fef4c2e8d094f7d90fa156b7998e92a.png)
菜单项 | 功能说明 |
---|---|
视图类型 | 选中此菜单项,显示视图类型为Data Integration |
放大 | 放大当前转换或作业的图形表示,以便更清楚地查看细节。这通常通过增加图形元素(如步骤和连接线)的大小来实现。 |
缩小 | 缩小当前转换或作业的图形表示,以便在屏幕上查看更多内容。这通常通过减小图形元素的大小来实现。 |
等比例 | 将当前转换或作业的图形表示恢复到其原始大小或等比例缩放状态。这有助于在用户进行了放大或缩小操作后恢复到标准视图。 |
执行结果面板 | 显示或隐藏执行结果面板,该面板用于显示转换或作业执行过程中的输出、错误和日志信息。这对于调试和监控转换或作业的执行非常有用。 |
2.4 【执行】
![](https://i-blog.csdnimg.cn/direct/5f4a9ae279e24042a0e7444dbf6cb67e.png)
菜单项 | 功能说明 |
---|---|
运行 | 执行当前打开的转换或作业。这将启动转换或作业的处理流程,并根据定义的步骤和逻辑执行相应的操作。 |
Run Options | 提供运行转换或作业时的附加选项。这可能包括设置并行处理、指定日志级别、定义变量等。用户可以根据需要配置这些选项以影响转换或作业的执行方式。 |
预览 | 在不实际执行转换或作业的情况下,预览其处理结果。这通常用于查看转换或作业中某个步骤的输出数据,以便在正式运行之前进行验证和调整。 |
调试(D) | 进入调试模式,逐步执行转换或作业中的步骤,并查看每个步骤的输入和输出数据。这对于诊断和处理转换或作业中的错误和问题非常有用。用户可以在调试过程中设置断点、单步执行和查看变量值等。 |
重放® | 重新执行最近一次成功运行的转换或作业。这通常用于在修改转换或作业后,快速验证其是否按预期工作,而无需从头开始执行整个流程。 |
校验 | 对转换或作业进行语法和逻辑校验,以确保其没有错误或不一致之处。这有助于在正式运行之前发现并修复潜在的问题。 |
影响分析 | 分析转换或作业对数据库或其他数据源的影响。这通常用于评估转换或作业执行后可能产生的数据更改、表结构变化等。影响分析有助于用户了解转换或作业的作用范围和潜在后果。 |
获取SQL | 对于包含数据库操作的转换或作业步骤,获取其生成的SQL语句。这有助于用户理解步骤如何在数据库级别上执行操作,并进行相应的优化和调整。 |
显示最近一次的操作 | 显示最近一次执行转换或作业时的操作记录,包括执行时间、状态、日志信息等。这有助于用户跟踪转换或作业的历史执行情况,并快速定位问题所在。 |
2.5 【工具】
![](https://i-blog.csdnimg.cn/direct/bb4fc87c924d40d893fb72dab1511551.png)
菜单项 | 功能说明 |
---|---|
数据库 | 单击此菜单项,浏览当前工程的数据库连接,或清除缓存 |
资源库 | 单击此菜单项,探索、导入、导出当前的工程的资源库,或清除共享对象缓东 |
向导(W) | 单击此菜单项,在当前工程中,创建数据库连接向导,或复制单表向导,或复制多表向导单击此菜单项 |
选项 | 打开Kettle的选项对话框,允许用户配置Kettle的全局设置。这些设置包括用户界面偏好、日志记录级别、数据库连接池配置等。 |
Show plugin information | 显示有关已安装Kettle插件的信息。 |
2.6 【帮助】
![](https://i-blog.csdnimg.cn/direct/f90996ac63bf4c05ab653fa99d6c18c0.png)
菜单项 | 功能说明 |
---|---|
显示欢迎屏幕 | 打开Kettle的欢迎屏幕,该屏幕通常包含有关Kettle的简要介绍、最新更新和提示、快速入门指南或教程链接等信息。 |
Documentation | 提供对Kettle官方文档的访问。 |
关于 | 显示有关Kettle版本的信息,包括版本号、发布日期、版权信息、开发者或维护者联系信息等。 |
3、转换界面介绍
在Kettle欢迎界面中,依次单击【新建】一【转换】菜单项,或使用Ctr+N快捷键,创建【写日志】转换工程。
-
在【写日志】转换工程中,与欢迎界面不同,在左边的组件区域中,以树形结构的形式,列出了【核心对象】选项卡中所有的类别对象。
-
例如,单击【输入】对象,系统会列出【输入】对象下所有的组件,选择【CSV文件输入】组件,拖曳至右边的工作区域中,完成【CSV文件输入】组件的创建,如图所示。
从左到右分别为
-
运行工程
-
暂停运行工程
-
停止运行工程
-
预览数据
-
调试运行的工程
-
重放转换工程
-
校验转换
-
影响分析
-
获取SQL
-
选择数据库连接
-
显示/隐藏执行结果面板
4、作业界面介绍
在Kettle欢迎界面中,依次单击【新建】→【作业(J)】菜单项,或使用Ctrl+Alt+N快捷键,创建【作业1】任务工程。
- 在【作业1】任务工程中,单击左边的组件区域中的【通用】对象,显示出【通用】对象下所有的组件选择【Start】组件,拖曳至右边的工作区域中,完成【Start】组件的创建,如图所示。【Start】组件创建后即可设置该组件的参数,运行任务。
从左到右分别为
- 运行作业
- 停止运行作业
- 重放作业工程
- 获取SQL
- 选择数据库连接
- 显示/隐藏执行结果面板
5、执行结果
![](https://i-blog.csdnimg.cn/direct/136cd9613f644a5098198c2a1fb03d4b.png)
转换的【执行结果】面板有【日志】【执行历史】【步骤度量】【性能图】【Metrics】【Preview data】6个选项卡,每个选项卡的具体说明如下。
-
【日志】选项卡。默认选项,显示转换中的日志信息,这些信息一般包括转换成功、失败、失败的错误提示信息等。
-
【执行历史】选项卡。显示【转换日志表】【步骤日志表】【日志通道日志表】【Metrics log table】等表的信息。
-
【步骤度量】选项卡。显示组件一些可以度量的数据信息,如复制的记录行数,读、写记录数等。
-
【性能图】选项卡。配置转换属性的参数,以便能够有效地重新执行转换。
-
【Metrics】选项卡。显示有关转换的组件执行时间、读取数据文件时间等指标数据。
-
【Preview data】选项卡。预览转换的结果数据。
![](https://i-blog.csdnimg.cn/direct/d68464bdc4c84b7781fc952ad27f5a0c.png)
作业的【执行结果】面板有【日志】【历史】【作业度量】【Metrics】4个选项卡,每个选项卡的具体说明如下。
- 【日志】选项卡。默认选项,显示执行任务中的日志信息,这些信息一般包括执行任务成功、失败、失败的错误提示信息等。
- 【历史】选项卡。显示【作业日志表】【作业项日志表】【日志通道日志表】等表的信息。
- 【作业度量】选项卡。显示组件一些可以度量的数据信息,如执行任务中的结果、原因等信息。
- 【Metrics】选项卡。显示有关任务的组件执行时间、读取数据文件时间等指标数据。根据实际需求,读者可以查看有关选项的信息,了解任务的执行情况,定位和分析出错的地方,维护和优
化任务工程。