Sqoop部署和基本操作

目录

一、说明

数据导入(Import):

Sqoop可以从关系型数据库(如MySQL、PostgreSQL、Oracle等)中抽取数据,并将其导入到Hadoop的HDFS中,存储为各种格式(如文本文件、Avro、Parquet等)供后续处理和分析使用。

导入过程中,Sqoop支持将数据直接导入到Hive表中,从而方便地进行SQL查询和分析。

数据导出(Export):

Sqoop可以将Hadoop HDFS中的数据导出回关系型数据库中,使得经过处理和分析的数据能够被传统的业务系统所使用。

导出过程支持将Hive表或者HDFS中的文件数据写入到指定的关系型数据库表中。

数据同步(Synchronization):

Sqoop支持增量数据导入和导出,可以基于时间戳或主键等机制识别并同步发生变化的数据,从而减少不必要的数据传输,提高同步效率

本质上是执行MapReduce任务

二、部署

  1. 解压安装包
  2. 设置环境变量
  3. SQOOP_HOME=/root/training/sqoop-1.4.5.bin__hadoop-0.23
    export SQOOP_HOME
    PATH=$SQOOP_HOME/bin:$PATH
    export PATH

三、常用命令

codegen:生成与数据库记录交互的代码。

这个命令会生成 Java 代码,用于与 MySQL 数据库中的 tablename 表交互。生成的代码会存储在 /path/to/generated/code 目录下

通常包括了用于访问数据库表的字段、方法以及必要的数据库连接和关闭的代码。

bash 复制代码
sqoop codegen 
--connect jdbc:mysql://localhost/dbname
 --username root --password password 
 --table tablename 
 --outdir /path/to/generated/code 

create-hive-table:根据关系型数据库表结构创建Hive的表结构

这个命令会在 Hive 中创建一个名为 hivetablename 的表,其结构与 MySQL 数据库中的 tablename 表相同。数据字段之间用逗号分隔,行之间用换行符分隔。--hive-overwrite 参数指定如果表已存在,则覆盖它。

bash 复制代码
sqoop create-hive-table 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --hive-table hivetablename --fields-terminated-by ',' --lines-terminated-by '\n' --hive-overwrite

eval:评估 SQL 语句并显示结果。

bash 复制代码
sqoop eval 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--query 'SELECT * FROM tablename WHERE id = 1'

export:将 HDFS导出到数据库表中。

这个命令会将 HDFS 目录 /path/to/hdfs/data 中的数据导出到 MySQL 数据库中的 tablename 表。数据字段之间用逗号分隔,行之间用换行符分隔。

bash 复制代码
sqoop export 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename --export-dir /path/to/hdfs/data --input-fields-terminated-by ',' --input-lines-terminated-by '\n'

help:列出可用的命令。

bash 复制代码
sqoop help

import:从数据库导入表到 HDFS。

这个命令会将 MySQL 数据库中的 tablename 表导入到 HDFS 的 /path/to/hdfs/target 目录。columns参数表示只导入SAL这个列

bash 复制代码
sqoop import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--table tablename 
--columns SAL
--target-dir /path/to/hdfs/target 

import-all-tables:从数据库导入所有表到 HDFS。

bash 复制代码
sqoop import-all-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password 
--target-dir /path/to/hdfs/target

job:管理与保存的作业。

这两个命令分别用于创建和执行一个名为 myjob 的保存作业。作业包含了一个从 MySQL 数据库导入表到 HDFS 的任务。

bash 复制代码
sqoop job 
--create myjob 
-- import 
--connect jdbc:mysql://localhost/dbname 
--username root --password password --table tablename --target-dir/path/to/hdfs/target  
sqoop job 
--exec myjob

list-databases:列出服务器上的可用数据库。

bash 复制代码
sqoop list-databases 
--connect jdbc:mysql://localhost 
--username root --password password

list-tables:列出数据库中的可用表。

MYSQL

bash 复制代码
sqoop list-tables 
--connect jdbc:mysql://localhost/dbname 
--username root --password password

merge:合并增量导入的结果。

这个命令会将 HDFS 目录 /path/to/hdfs/newdata 中的新数据与 /path/to/hdfs/existingdata 中的现有数据合并,并将结果存储在 /path/to/hdfs/mergeddata 目录中。需要指定包含合并逻辑的 Java 类名和 JAR 文件路径。

bash 复制代码
sqoop merge 
--class-name MyClassName 
--jar-file /path/to/myjar.jar 
--new-data /path/to/hdfs/newdata 
--onto /path/to/hdfs/existingdata 
--target-dir /path/to/hdfs/mergeddata

metastore:运行一个独立的 Sqoop 元数据存储。

这个命令会启动一个独立的 Sqoop 元数据存储服务,用于保存作业和配置信息。

bash 复制代码
sqoop metastore

version:显示版本信息。

bash 复制代码
sqoop version
相关推荐
啊迷诺斯16 小时前
hadoop的常用命令
hadoop
Loving_enjoy18 小时前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
一个天蝎座 白勺 程序猿2 天前
大数据(4.5)Hive聚合函数深度解析:从基础统计到多维聚合的12个生产级技巧
大数据·hive·hadoop
浩浩kids2 天前
Hadoop•踩过的SHIT
大数据·hadoop·分布式
一个天蝎座 白勺 程序猿2 天前
大数据(4.2)Hive核心操作实战指南:表创建、数据加载与分区/分桶设计深度解析
大数据·hive·hadoop
一个天蝎座 白勺 程序猿2 天前
大数据(4.3)Hive基础查询完全指南:从SELECT到复杂查询的10大核心技巧
数据仓库·hive·hadoop
宅小海3 天前
14 配置Hadoop集群-配置历史和日志服务
linux·服务器·hadoop
珹洺3 天前
Java-servlet(十)使用过滤器,请求调度程序和Servlet线程(附带图谱表格更好对比理解)
java·开发语言·前端·hive·hadoop·servlet·html
2401_871290584 天前
Hadoop 集群的常用命令
大数据·hadoop·分布式
只因只因爆4 天前
mapreduce的工作原理
大数据·linux·hadoop·mapreduce