CDH6.3.2,不互通的cdh平台互导hive数据

1、先导出所有建表语句,在源CDH服务器命令行输入下面命令,该库下所有建表语句保存至hive目录中的tables.sql文件中,不知道具体路径可以全局搜索一下,拿到源库hive的建表语句后,稍微处理一下,去目标库把表建好。

复制代码
hive -e "use database; show tables;" | xargs -I '{}' sh -c 'hive -e "use database; show create table '{}';"' > tables.sql

附加:我自己需要导很多个库,所以写了一行python代码可以批量生成用

复制代码
database = default
cmdstr = '''hive -e "use ''' + database + '''; show tables;" | xargs -I '{}' sh -c 'hive -e "use ''' + database + '''; show create table '{}';"' > ''' + database + '''.sql'''

2、然后再在源CDH服务器命令行输入下面命令,命令的意思就是查询后保存到data文件中

复制代码
hive -e " select * from database.table;" > data.txt

附加:

1)我用代码生成了一批上面的命令,直接批量复制到终端里面,结果有的执行了,有的没执行,查了下原因,是因为执行的时候会进如hive里面,终端反应比较慢,有一部分字符被粘到hive里面了,所以后来采用了shell脚本的形式。(有需要的可以参考)

复制代码
#!/bin/bash
result=`hive -e " select * from default.test;" > selectandget1.txt` 
echo "$result"

2)然后又出现一个问题,我直接代码批量生成的shell脚本放到终端里面报错:

./showll.sh: 权限不够

复制代码
chmod +x example.sh

/bin/bash^M: 坏的解释器: 没有那个文件或目录。这个问题是因为我在windows编辑的脚本,与centos的保存格式LR不一致。在python保存语句加参数 newline='\n'

复制代码
with open(sql_path+'output/4-3_select_and_save.sh', 'w' ,newline='\n') as f:

3、在目标库中新建不带分区的临时表(因为有分区不能直接导入,如果 没有分区的话可以直接跳过这步,去4步直接导入)

4、将源库中导出的data文件复制到目标库服务器上,然后把文件加载到临时表

复制代码
load data local inpath '/var/data.txt' overwrite into table database.table_cache ;

5、将临时表数据写到正式表中 ,需要注意的是,select不能直接*,而是要把所有列列出来

复制代码
insert overwrite table database.table partition (分区列名)  select 列名1,列名2 from database.table__cache;
相关推荐
zhang98800003 小时前
储能领域大数据平台的设计中如何使用 Hadoop、Spark、Flink 等组件实现数据采集、清洗、存储及实时 / 离线计算,支持储能系统分析与预测
大数据·hadoop·spark
Lx3525 小时前
Hadoop日志分析实战:快速定位问题的技巧
大数据·hadoop
喂完待续8 小时前
【Tech Arch】Hive技术解析:大数据仓库的SQL桥梁
大数据·数据仓库·hive·hadoop·sql·apache
最初的↘那颗心9 小时前
Flink Stream API 源码走读 - window 和 sum
大数据·hadoop·flink·源码·实时计算·窗口函数
喂完待续21 小时前
Apache Hudi:数据湖的实时革命
大数据·数据仓库·分布式·架构·apache·数据库架构
计艺回忆路1 天前
从Podman开始一步步构建Hadoop开发集群
hadoop
计算机源码社2 天前
分享一个基于Hadoop的二手房销售签约数据分析与可视化系统,基于Python可视化的二手房销售数据分析平台
大数据·hadoop·python·数据分析·毕业设计项目·毕业设计源码·计算机毕设选题
计算机毕设残哥2 天前
完整技术栈分享:基于Hadoop+Spark的在线教育投融资大数据可视化分析系统
大数据·hadoop·python·信息可视化·spark·计算机毕设·计算机毕业设计
计算机源码社3 天前
分享一个基于Hadoop+spark的超市销售数据分析与可视化系统,超市顾客消费行为分析系统的设计与实现
大数据·hadoop·数据分析·spark·计算机毕业设计源码·计算机毕设选题·大数据选题推荐
beijingliushao3 天前
33-Hive SQL DML语法之查询数据-2
hive·hadoop·sql