【hadoop】sqoop案例 hive->mysql

将temperature.log中的气象数据导入到Hive的temperature表中,

根据气象站id分组计算每个气象站30年来的*最高*气温,

然后将统计结果导出到MySQL当中。

思路:

1.在hive中创建表

2.数据导入到表中

3.计算后的结果写入另外的表

4.用sqoop导出到mysql


1.在hive中创建表

复制代码
hive

hive> create database if not exists temperature_db;

hive> use temperature_db;

hive> create table temperature_tb(id int,year string,temperature string) row format delimited fields terminated by ',';

2.数据导入到表中

先上传文件到虚拟机,然后输入load data local inpath... into命令加载数据到数据库。

复制代码
load data local inpath '/home/hadoop/temperature.log' into table temperature_tb;

3.计算后的结果写入另外的表

复制代码
CREATE TABLE temperature_max_by_id AS
SELECT id, MAX(temperature) AS max_temperature
FROM temperature_tb
WHERE `year` >= STRING(YEAR(CURRENT_DATE()) - 30)
GROUP BY id;

DESCRIBE FORMATTED temperature_db.temperature_max_by_id;

可以查看表在hdfs中的位置。

4.使用 Sqoop 导出到 MySQL

注意:要提前在mysql中创建表

USE temperature_db; CREATE TABLE IF NOT EXISTS temperature (id INT, max_temperature VARCHAR(50));

复制代码
~/sqoop/bin/sqoop export \
  --connect jdbc:mysql://localhost/temperature_db \
  --username root \
  --password 123456 \
  --table temperature \
  --export-dir /user/hive/warehouse/temperature_db.db/temperature_max_by_id \
  --input-fields-terminated-by ',' \
  -m 1
相关推荐
计算机编程-吉哥1 小时前
大数据毕业设计-基于Python的中文起点网小说数据分析平台(高分计算机毕业设计选题·定制开发·真正大数据)
大数据·hadoop·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
Agatha方艺璇4 小时前
Hive基础简介
数据仓库·hive·hadoop
IT研究室6 小时前
大数据毕业设计选题推荐-基于大数据的国内旅游景点游客数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
Lx3527 小时前
YARN资源调度优化:最大化集群利用率
大数据·hadoop
isfox1 天前
Google GFS 深度解析:分布式文件系统的开山之作
大数据·hadoop
鼠鼠我捏,要死了捏1 天前
Hadoop NameNode内存泄漏与GC停顿问题排查与解决方案
hadoop·问题排查·jvm优化
嘉禾望岗5031 天前
Yarn介绍与HA搭建
大数据·hadoop·yarn
IT研究室1 天前
大数据毕业设计选题推荐-基于大数据的国家药品采集药品数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
Lx3521 天前
Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
大数据·hadoop
BYSJMG1 天前
计算机毕业设计选题:基于Spark+Hadoop的健康饮食营养数据分析系统【源码+文档+调试】
大数据·vue.js·hadoop·分布式·spark·django·课程设计