分布式ETL工具Sqoop实践

Mysql数据准备

1、在node02节点登录Mysql。

mysql -uroot -proot

2、新建数据库testdb。

create database testdb;

3、新建数据表ts。

use testdb;
create table ts(id int, name varchar(10), age int, sex char(1));

4、向表中插入数据。

insert into ts values(10001,'张三',18,'m');
insert into ts values(10002,'李四',20,'m');
insert into ts values(10003,'王小姐',18,'w');

Sqoop基本使用

1、查看MySQL中的所有数据库。

sqoop list-databases --connect jdbc:mysql://node02:3306/ --username root --password root

2、在/root目录下新建sqoop_file目录用于存放作业配置文件。

mkdir /root/sqoop

3、在/root/sqoop_file目录编写配置文件list_dbs.conf,减少重复参数配置。

vim list_dbs.conf
# 添加以下内容
list-databases
--connect
jdbc:mysql://node02:3306/
--username
root
--password
root

4、使用配置文件启动sqoop作业。

sqoop --options-file list_dbs.conf

5、查看testdb中所有表,使用非明文方式,手动输入密码。

sqoop list-tables \
   --connect jdbc:mysql://node02:3306/testdb \
   --username root \
   -P

6、在Mysql中执行SQL并将结果展示在控制台。

sqoop eval \
  --connect jdbc:mysql://node02:3306/testdb \
  --query "SELECT * FROM ts LIMIT 10" \
  --username root \
  -P

7、将testdb.ts表中所有数据全量导入到hdfs的/tmp/sqoop/testdb/ts目录中。

sqoop import \
   --connect jdbc:mysql://node02:3306/testdb \
   --username root \
   --query "select * from ts where \$CONDITIONS" \
   --target-dir /tmp/sqoop/testdb/ts \
   --fields-terminated-by "," \
   --hive-drop-import-delims \
   --split-by id \
   -m 1\
   -P

8、查看最终结果。

hadoop fs -ls /tmp/sqoop/testdb/ts
hadoop fs -cat /tmp/sqoop/testdb/ts/part-m-00000

9、在MySQL中新增一条数据。

insert into ts values(10004,'张飞',28,'m');

9、使用append增量方式将新增数据导入到/tmp/sqoop/testdb/ts/目录中。

sqoop import \
   --connect jdbc:mysql://node02:3306/testdb \
   --username root \
   --password root \
   --query "select * from ts where \$CONDITIONS" \
   --target-dir /tmp/sqoop/testdb/ts/ \
   --split-by id \
   -m 1  \
   --incremental append \
   --check-column id \
   --last-value 10003

11、查看导入结果。

hadoop fs -ls /tmp/sqoop/testdb/ts
hadoop fs -cat /tmp/sqoop/testdb/ts/part-m-00001

Sqoop Job操作

将sqoop任务编写为sqoop job,能够减少每次作业执行前,进行的参数配置工作。

  1. 将增量导入任务制作为sqoop job。

    sqoop job --create im_ts
    -- import
    --connect jdbc:mysql://node02:3306/testdb
    --username root
    --password root
    --query "select * from ts where $CONDITIONS"
    --target-dir /tmp/sqoop/testdb/ts/
    --split-by id
    -m 1
    --incremental append
    --check-column id
    --last-value 10004

  2. 查看所有作业。

    sqoop job --list

  3. 查看指定作业的详细信息。

    sqoop job --show im_ts

  4. 在MySQL中新增数据。

    insert into ts values(10005,'赵子龙',27,'m');

  5. 运行作业,增量导入数据,这里需要手动输入数据库密码,Sqoop job默认不保存。

    sqoop job --exec im_ts

  6. 查看导入结果。

    hadoop fs -cat /tmp/sqoop/testdb/ts/part-m-00002

  7. 再次在MySQL中新增数据。

    insert into ts values(10006,'悟空',5000,'m');

  8. 运行作业,此时不需要手动修改--last-value,作业会自动根据上次的结果进行更新。

    sqoop job --exec im_ts

  9. 修改$SQOOP_HOME/conf/sqoop-site.xml配置文件,可以使sqoop job自动保存密码。

    <property> <name>sqoop.metastore.client.record.password</name> <value>true</value> <description>If true, allow saved passwords in the metastore. </description> </property>
相关推荐
桃林春风一杯酒41 分钟前
HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·分布式
逻各斯5 小时前
Redisson分布式锁java语法, 可重入性实现原理 ,(还有可重试性,超时不释放,主从一致性)
分布式
WeiLai11126 小时前
面试基础--微服务架构:如何拆分微服务、数据一致性、服务调用
java·分布式·后端·微服务·中间件·面试·架构
奔跑吧邓邓子7 小时前
【Python爬虫(44)】分布式爬虫:筑牢安全防线,守护数据之旅
开发语言·分布式·爬虫·python·安全
转身後 默落8 小时前
11.Docker 之分布式仓库 Harbor
分布式·docker·容器
奔跑吧邓邓子8 小时前
【Python爬虫(45)】Python爬虫新境界:分布式与大数据框架的融合之旅
开发语言·分布式·爬虫·python·大数据框架
m0_748232928 小时前
分布式与集群,二者区别是什么?
分布式
guihong0048 小时前
Redis 深度解析:高性能缓存与分布式数据存储的核心利器
redis·分布式·缓存
guihong0048 小时前
深入解析Zookeeper脑裂问题与CAP取舍:从原理到实战
分布式·zookeeper·云原生
不剪发的Tony老师9 小时前
Apache Hop:开源版本的Kettle
数据仓库·etl