大数据组件之Sqoop

Sqoop的主要功能:

1.从源端抽取数据导入到目标端

2.从源端导出数据到目标端

抽取的主要数据源:

1.Oracle数据库

2.Mysql数据库

3.Doris数据库

Sqoop的主要命令以及功能:

1.全量抽取

2.增量抽取

3.覆盖数据

常用命令:

比如:

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \

--hive-import \

--connect jdbc:oracle:thin:@XXXX:1521:ORACLE_DB \

--username XXX\

--password XXXX \

--hive-table XXXX \

--fields-terminated-by ',' \

-m 5 \

--hive-database XXXX

注意问题:

1.如果导入的数据表中的数据用逗号隔开,那么fields-terminated-by ',' 不能用',',换成其他的符号格式

2.如果导入的数据出现脏数据或者导入的目标端数据比源端数据多,那么可以增加如下参数:

sqoop import --connect jdbc:mysql://ip:9030/database --username root --password XXXX --table XXXX --m 1 --hive-import --hive-overwrite --hive-database database --hive-table XXXX --hive-drop-import-delims

注意:

1.如果在hue中执行,那么不能换行

2.如果在hue中执行,那么用tab键进行分割

3.如果出现脏数据或者null数据,那么增加参数: --hive-drop-import-delims

4.数据增量覆盖,增加--hive-overwrite

5.出现一个隐藏性的问题,就是缺少mysql驱动,需要增加驱动,才能进行数据抽取和全量读取

综上: 主要用来抽取大量数据

相关推荐
hour_go5 分钟前
Linux Shell 实验一:数据采集与脚本调试错误总结
linux·笔记·bash·shell·实验报告·错误排查
励志成为美貌才华为一体的女子13 分钟前
本地用docling实现pdf转markdown操作笔记
笔记·pdf
患得患失94914 分钟前
【Turborepo】【Next】 Turborepo + Next.js 前后端精简搭建笔记(带官网)
开发语言·javascript·笔记
阿部多瑞 ABU1 小时前
技术报告:高仿真虚构内容对主流大模型的现实感幻觉测试
人工智能·经验分享·笔记·学习·ai写作
songyuc2 小时前
Eureka: Human-Level Reward Design via Coding Large Language Models 译读笔记
笔记·语言模型·eureka
能不能别报错2 小时前
K8s学习笔记(十八) HPA控制器
笔记·学习·kubernetes
XiangrongZ3 小时前
江协科技STM32课程笔记(四)—定时器TIM(输入捕获)
笔记·科技·stm32
koo3644 小时前
李宏毅机器学习笔记24
人工智能·笔记·机器学习
老虎06274 小时前
黑马点评学习笔记02(Mabatis—plus)
笔记·学习
摇滚侠5 小时前
Spring Boot 3零基础教程,Spring Boot 日志级别,笔记19
java·spring boot·笔记