Sqoop部署和基本操作

目录

一、说明

数据导入(Import):

Sqoop可以从关系型数据库(如MySQL、PostgreSQL、Oracle等)中抽取数据,并将其导入到Hadoop的HDFS中,存储为各种格式(如文本文件、Avro、Parquet等)供后续处理和分析使用。

导入过程中,Sqoop支持将数据直接导入到Hive表中,从而方便地进行SQL查询和分析。

数据导出(Export):

Sqoop可以将Hadoop HDFS中的数据导出回关系型数据库中,使得经过处理和分析的数据能够被传统的业务系统所使用。

导出过程支持将Hive表或者HDFS中的文件数据写入到指定的关系型数据库表中。

数据同步(Synchronization):

Sqoop支持增量数据导入和导出,可以基于时间戳或主键等机制识别并同步发生变化的数据,从而减少不必要的数据传输,提高同步效率

本质上是执行MapReduce任务

二、部署

  1. 解压安装包
  2. 设置环境变量
  3. SQOOP_HOME=/root/training/sqoop-1.4.5.bin__hadoop-0.23
    export SQOOP_HOME
    PATH=$SQOOP_HOME/bin:$PATH
    export PATH

三、常用命令

codegen:生成与数据库记录交互的代码。

这个命令会生成 Java 代码,用于与 MySQL 数据库中的 tablename 表交互。生成的代码会存储在 /path/to/generated/code 目录下

通常包括了用于访问数据库表的字段、方法以及必要的数据库连接和关闭的代码。

bash 复制代码
sqoop codegen 
--connect jdbc:mysql://localhost/dbname
 --username root --password password 
 --table tablename 
 --outdir /path/to/generated/code 

create-hive-table:根据关系型数据库表结构创建Hive的表结构

这个命令会在 Hive 中创建一个名为 hivetablename 的表,其结构与 MySQL 数据库中的 tablename 表相同。数据字段之间用逗号分隔,行之间用换行符分隔。--hive-overwrite 参数指定如果表已存在,则覆盖它。

bash 复制代码
sqoop create-hive-table 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --hive-table hivetablename --fields-terminated-by ',' --lines-terminated-by '\n' --hive-overwrite

eval:评估 SQL 语句并显示结果。

bash 复制代码
sqoop eval 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--query 'SELECT * FROM tablename WHERE id = 1'

export:将 HDFS导出到数据库表中。

这个命令会将 HDFS 目录 /path/to/hdfs/data 中的数据导出到 MySQL 数据库中的 tablename 表。数据字段之间用逗号分隔,行之间用换行符分隔。

bash 复制代码
sqoop export 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --export-dir /path/to/hdfs/data --input-fields-terminated-by ',' --input-lines-terminated-by '\n'

help:列出可用的命令。

bash 复制代码
sqoop help

import:从数据库导入表到 HDFS。

这个命令会将 MySQL 数据库中的 tablename 表导入到 HDFS 的 /path/to/hdfs/target 目录。columns参数表示只导入SAL这个列

bash 复制代码
sqoop import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename 
--columns SAL
--target-dir /path/to/hdfs/target 

import-all-tables:从数据库导入所有表到 HDFS。

bash 复制代码
sqoop import-all-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--target-dir /path/to/hdfs/target

job:管理与保存的作业。

这两个命令分别用于创建和执行一个名为 myjob 的保存作业。作业包含了一个从 MySQL 数据库导入表到 HDFS 的任务。

bash 复制代码
sqoop job 
--create myjob 
-- import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password --table tablename --target-dir/path/to/hdfs/target  
sqoop job 
--exec myjob

list-databases:列出服务器上的可用数据库。

bash 复制代码
sqoop list-databases 
--connect jdbc:mysql://localhost 
--username root --password password

list-tables:列出数据库中的可用表。

MYSQL

bash 复制代码
sqoop list-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password

merge:合并增量导入的结果。

这个命令会将 HDFS 目录 /path/to/hdfs/newdata 中的新数据与 /path/to/hdfs/existingdata 中的现有数据合并,并将结果存储在 /path/to/hdfs/mergeddata 目录中。需要指定包含合并逻辑的 Java 类名和 JAR 文件路径。

bash 复制代码
sqoop merge 
--class-name MyClassName 
--jar-file /path/to/myjar.jar 
--new-data /path/to/hdfs/newdata 
--onto /path/to/hdfs/existingdata 
--target-dir /path/to/hdfs/mergeddata

metastore:运行一个独立的 Sqoop 元数据存储。

这个命令会启动一个独立的 Sqoop 元数据存储服务,用于保存作业和配置信息。

bash 复制代码
sqoop metastore

version:显示版本信息。

bash 复制代码
sqoop version
相关推荐
Yz98761 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
武子康1 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康1 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
JessieZeng aaa13 小时前
CSV文件数据导入hive
数据仓库·hive·hadoop
Yz987620 小时前
hive复杂数据类型Array & Map & Struct & 炸裂函数explode
大数据·数据库·数据仓库·hive·hadoop·数据库开发·big data
EDG Zmjjkk21 小时前
Hive 函数(实例操作版2)
数据仓库·hive·hadoop
那一抹阳光多灿烂2 天前
Spark核心组件解析:Executor、RDD与缓存优化
hadoop·spark
Yz98762 天前
Hive分桶超详细!!!
大数据·数据仓库·hive·hadoop·hdfs·数据库开发·big data
Francek Chen2 天前
【大数据技术基础 | 实验十一】Hive实验:新建Hive表
大数据·数据仓库·hive·hadoop·分布式
出发行进2 天前
Flink错误:一historyserver无法启动,二存在的文件会报错没有那个文件或目录
大数据·linux·hadoop·flink·虚拟机