Sqoop部署和基本操作

一、说明

数据导入（Import）：

Sqoop可以从关系型数据库（如MySQL、PostgreSQL、Oracle等）中抽取数据，并将其导入到Hadoop的HDFS中，存储为各种格式（如文本文件、Avro、Parquet等）供后续处理和分析使用。

导入过程中，Sqoop支持将数据直接导入到Hive表中，从而方便地进行SQL查询和分析。

数据导出（Export）：

Sqoop可以将Hadoop HDFS中的数据导出回关系型数据库中，使得经过处理和分析的数据能够被传统的业务系统所使用。

导出过程支持将Hive表或者HDFS中的文件数据写入到指定的关系型数据库表中。

数据同步（Synchronization）：

Sqoop支持增量数据导入和导出，可以基于时间戳或主键等机制识别并同步发生变化的数据，从而减少不必要的数据传输，提高同步效率

本质上是执行MapReduce任务

二、部署

解压安装包
设置环境变量
SQOOP_HOME=/root/training/sqoop-1.4.5.bin__hadoop-0.23
export SQOOP_HOME
PATH=$SQOOP_HOME/bin:$PATH
export PATH

三、常用命令

codegen：生成与数据库记录交互的代码。

这个命令会生成 Java 代码，用于与 MySQL 数据库中的 tablename 表交互。生成的代码会存储在 /path/to/generated/code 目录下

通常包括了用于访问数据库表的字段、方法以及必要的数据库连接和关闭的代码。

bash 复制代码

sqoop codegen 
--connect jdbc:mysql://localhost/dbname
 --username root --password password 
 --table tablename 
 --outdir /path/to/generated/code

create-hive-table：根据关系型数据库表结构创建Hive的表结构

这个命令会在 Hive 中创建一个名为 hivetablename 的表，其结构与 MySQL 数据库中的 tablename 表相同。数据字段之间用逗号分隔，行之间用换行符分隔。--hive-overwrite 参数指定如果表已存在，则覆盖它。

bash 复制代码

sqoop create-hive-table 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --hive-table hivetablename --fields-terminated-by ',' --lines-terminated-by '\n' --hive-overwrite

eval：评估 SQL 语句并显示结果。

bash 复制代码

sqoop eval 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--query 'SELECT * FROM tablename WHERE id = 1'

export：将 HDFS导出到数据库表中。

这个命令会将 HDFS 目录 /path/to/hdfs/data 中的数据导出到 MySQL 数据库中的 tablename 表。数据字段之间用逗号分隔，行之间用换行符分隔。

bash 复制代码

sqoop export 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --export-dir /path/to/hdfs/data --input-fields-terminated-by ',' --input-lines-terminated-by '\n'

help：列出可用的命令。

bash 复制代码

sqoop help

import：从数据库导入表到 HDFS。

这个命令会将 MySQL 数据库中的 tablename 表导入到 HDFS 的 /path/to/hdfs/target 目录。columns参数表示只导入SAL这个列

bash 复制代码

sqoop import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename 
--columns SAL
--target-dir /path/to/hdfs/target

import-all-tables：从数据库导入所有表到 HDFS。

bash 复制代码

sqoop import-all-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--target-dir /path/to/hdfs/target

job：管理与保存的作业。

这两个命令分别用于创建和执行一个名为 myjob 的保存作业。作业包含了一个从 MySQL 数据库导入表到 HDFS 的任务。

bash 复制代码

sqoop job 
--create myjob 
-- import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password --table tablename --target-dir/path/to/hdfs/target  
sqoop job 
--exec myjob

list-databases：列出服务器上的可用数据库。

bash 复制代码

sqoop list-databases 
--connect jdbc:mysql://localhost 
--username root --password password

list-tables：列出数据库中的可用表。

MYSQL

bash 复制代码

sqoop list-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password

merge：合并增量导入的结果。

这个命令会将 HDFS 目录 /path/to/hdfs/newdata 中的新数据与 /path/to/hdfs/existingdata 中的现有数据合并，并将结果存储在 /path/to/hdfs/mergeddata 目录中。需要指定包含合并逻辑的 Java 类名和 JAR 文件路径。

bash 复制代码

sqoop merge 
--class-name MyClassName 
--jar-file /path/to/myjar.jar 
--new-data /path/to/hdfs/newdata 
--onto /path/to/hdfs/existingdata 
--target-dir /path/to/hdfs/mergeddata

metastore：运行一个独立的 Sqoop 元数据存储。

这个命令会启动一个独立的 Sqoop 元数据存储服务，用于保存作业和配置信息。

bash 复制代码

sqoop metastore

version：显示版本信息。

bash 复制代码

sqoop version