一百五十九、Kettle——Kettle9.2通过配置Hadoop clusters连接Hadoop3.1.3(踩坑亲测、附流程截图)

一、目的

由于kettle的任务需要用到Hadoop(HDFS),所以就要连接Hadoop服务。

之前使用的是kettle9.3,由于在kettle新官网以及博客百度等渠道实在找不到shims的驱动包,无奈换成了kettle9.2,kettle9.2的安装包里自带了shims的驱动包,不需要额外下载,挺好!

二、各工具版本

(一)kettle9.2.0

kettle9.2.0安装包网盘链接,请看鄙人拙作

http://t.csdn.cn/VccRxhttp://t.csdn.cn/VccRx里面有目前我有的各种kettle安装包网盘链接

(二)Hadoop3.1.3

三、前提

kettle9.2已经成功连接Hive3.1.2,即已复制Hadoop和Hive的配置文件

注意:如果kettle中还需要使用HBase,那配置文件还需要加上 hbase-site.xml

四、连接步骤

(一)开启kettle服务,右击Hadoop clusters,选择Add driver

(二)点击Browse,到data-integration\ADDITIONAL-FILES\drivers文件夹下,选择与自己Hadoop匹配驱动包

(三)选好驱动包后,点击Next

(四)之后kettle就成功导入驱动包,点击close关闭

(五)Add driver导入后需要重新启动kettle,不然可能看不到Driver信息

(六)重启kettle服务后,右击Hadoop clusters,选择New driver或者修改已有Edit clusters

第一步,填写Cluster name

第二步,选择Driver

第三步,添加hive和Hadoop5个配置文件(如需要hbase则要拉取hbase-site.xml)

第四步,配置HDFS信息(注意hostname与Hadoop配置文件core-site.xml里填的一模一样)

第五步,其他配不配都行、根据自己需要。然后点击Next

第六步,点击View test result查看具体详情

第七步,可以看到Hadoop(HDFS)可以正常连接,点击close关闭

(七)在kettle的Hadoop file output控件里打开或者创建Hadoop cluster

1、配置Hadoop cluster信息

注意:选择Vendor shim为hdp30

注意:hostname与Hadoop配置文件core-site.xml里填的一模一样

2、点击测试一下

五、运行从MySQL到HDFS 的kettle任务

到这里,kettle9.2就成功连接Hadoop3.1.3(HDFS)了,如果需要相关安装包请到我的博客里获取网盘链接。

乐于奉献共享,帮助你我他!!!

相关推荐
还是大剑师兰特3 小时前
Hadoop面试题及详细答案 110题 (86-95)-- Hadoop生态系统工具
hadoop·大剑师·hadoop面试题
yumgpkpm3 小时前
CMP (类Cloudera) CDP7.3(400次编译)在华为鲲鹏Aarch64(ARM)信创环境中的性能测试过程及命令
大数据·hive·hadoop·python·elasticsearch·spark·cloudera
Q26433650234 小时前
大数据实战项目-基于K-Means算法与Spark的豆瓣读书数据分析与可视化系统-基于python的豆瓣读书数据分析与可视化大屏
大数据·hadoop·机器学习·数据分析·spark·毕业设计·kmeans
大数据CLUB5 小时前
基于spark的抖音短视频数据分析及可视化
大数据·hadoop·分布式·数据分析·spark
yumgpkpm5 小时前
大数据综合管理平台(CMP)(类Cloudera CDP7.3)有哪些核心功能?
hive·hadoop·elasticsearch·zookeeper·big data
板凳坐着晒太阳6 小时前
Hive 删除分区语句卡死问题
数据仓库·hive·hadoop
Q264336502318 小时前
【有源码】基于Hadoop生态的大数据共享单车数据分析与可视化平台-基于Python与大数据的共享单车多维度数据分析可视化系统
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
计算机毕业设计木哥19 小时前
计算机毕设选题推荐:基于Hadoop和Python的游戏销售大数据可视化分析系统
大数据·开发语言·hadoop·python·信息可视化·spark·课程设计
嘉禾望岗5031 天前
hive on tez运行及hive ha搭建
数据仓库·hive·hadoop
笨蛋少年派1 天前
操作Hadoop时,慎用sudo
大数据·hadoop·分布式