DataX--Web:图形化界面简化大数据任务管理

在处理大数据任务时,频繁地修改配置文件或编写脚本可能会变得繁琐且容易出错。DataX Web提供了一个图形化界面,旨在简化这些操作,让用户通过直观的界面管理数据同步任务。

DataX Web简介

DataX Web是一个开源项目,它允许用户通过Web界面来配置和管理DataX的数据同步任务。它支持RDBMS、Hive、HBase、ClickHouse、MongoDB等多种数据源,使得数据同步任务的创建和管理变得更加便捷。

安装与配置

安装DataX Web相对简单,用户可以从GitHub上下载源码并按照文档进行配置。配置过程中可能需要调整一些环境变量或配置文件,以确保DataX Web能够正确连接到数据源。

github地址: https://github.com/WeiYe-Jing/datax-web

网盘下载链接:datax-web-2.1.2.tar.gz

安装

bash 复制代码
1、上传
2、解压
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/installs/
3、安装
cd /opt/installs/datax-web-2.1.2/bin
执行安装程序
./install.sh

修改配置文件

bash 复制代码
vi /opt/installs/datax-web-2.1.2/modules/datax-executor/bin/env.properties

修改此处:
PYTHON_PATH=/opt/installs/datax/bin/datax.py

启动和关闭

bash 复制代码
因为它的启动和关闭命令跟我的hadoop集群命令一模一样,所以我要修改它:
mv start-all.sh start-web.sh
mv stop-all.sh stop-web.sh

配置环境变量:
export DATAX_WEB_HOME=/opt/installs/datax-web
export PATH=$PATH:$DATAX_WEB_HOME/bin

记得刷新!!

source /etc/profile
bash 复制代码
bin路径下,有一个 start-all.sh  启动
stop-all.sh 关闭
不要配置环境变量

/opt/installs/datax-web-2.1.2/bin
运行的时候  ./start-all.sh

浏览

在上一步启动dataxweb之后,通过浏览器可以进行dataxweb的访问,具体地址如下:
http://bigdata01:9527/index.html
进入网页之后,要求输入登录的用户名与密码,使用默认的即可:
用户名:admin
密码:123456

查看jps

使用DataX Web

在DataX Web中,用户首先需要创建一个项目并添加相应的数据源,如MySQL、Hive等,用户可以根据需要添加DataX模板,这些模板定义了数据同步任务的配置模板。通过图形化界面,用户可以轻松编写数据同步任务,如从Hive导出数据到MySQL。DataX Web允许用户执行任务并实时查看运行日志和监控执行器资源。这使得任务的监控和管理变得更加直观和方便。

创建项目

添加数据源

首先添加mysql数据源

添加hive的数据源

启动hive的远程连接
bash 复制代码
hive-server-manager.sh start hiveserver2

查看日志:
tail -f  /var/log/my_hive_log/hiveserver2.log
连接正常再进行配置

添加DataX模板

名词解释:

  • 执行器 :目前只有datax可选

  • 路由策略 :用于集群化部署后,任务的分配,默认随机即可。

  • 阻塞处理 :在调度出现积压时(同时启动大量的数据处理任务)使用的策略:

  • 单机串行 :调度请求进入单机执行器后,调度请求进入FIFO队列并以串行方式运行;

  • 丢弃后续调度 :调度请求进入单机执行器后,发现执行器存在运行的调度任务,本次请求将会被丢弃并标记为失败;

  • 覆盖之前调度 :调度请求进入单机执行器后,发现执行器存在运行的调度任务,将会终止运行中的调度任务并清空队列,然后运行本地调度任务;

`建议使用单机串行与丢弃后续调度`

-任务类型 :目前只有DataX选项可以选择

  • Cron:调度定时执行器,通过该配置可以完成定时、定周期启动

编写任务

以hive数据导出到mysql为例

配置hdfsreader

配置mysqlwriter

配置字段映射

查看json

记得点击【下一步】,否则任务不创建。

任务执行与监控

查看任务并执行

查看运行结果和日志

编辑任务

注意事项

在使用DataX Web时,需要注意数据源的字段类型与DataX或Hive中的字段类型匹配。例如,Hive中的int类型在DataX中可能需要改为long

结语

DataX Web作为一个图形化工具,极大地简化了DataX数据同步任务的管理。它通过提供一个用户友好的界面,使得即使是非技术用户也能够轻松地配置和管理复杂的数据同步任务。随着大数据技术的不断发展,DataX Web有望成为大数据任务管理的重要工具。

相关推荐
SelectDB1 小时前
拉卡拉 x Apache Doris:统一金融场景 OLAP 引擎,查询提速 15 倍,资源直降 52%
大数据·数据库·数据分析
合合技术团队1 小时前
实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?
大数据·人工智能·图像识别
lilye663 小时前
程序化广告行业(39/89):广告投放的数据分析与优化秘籍
大数据·人工智能·数据分析
中科岩创5 小时前
某地老旧房屋自动化监测项目
大数据·物联网·自动化
viperrrrrrrrrr76 小时前
大数据学习(95)-谓词下推
大数据·sql·学习
汤姆yu7 小时前
基于python大数据的旅游可视化及推荐系统
大数据·旅游·可视化·算法推荐
zhangjin12227 小时前
kettle从入门到精通 第九十四课 ETL之kettle MySQL Bulk Loader大批量高性能数据写入
大数据·数据仓库·mysql·etl·kettle实战·kettlel批量插入·kettle mysql
哈哈真棒7 小时前
hadoop 集群的常用命令
大数据
阿里云大数据AI技术8 小时前
百观科技基于阿里云 EMR 的数据湖实践分享
大数据·数据库
泛微OA办公系统8 小时前
上市电子制造企业如何实现合规的质量文件管理?
大数据·制造