ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
Yz98766 分钟前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交6 分钟前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康9 分钟前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康11 分钟前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差95325 分钟前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
锵锵锵锵~蒋28 分钟前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
二进制_博客29 分钟前
Flink学习连载文章4-flink中的各种转换操作
大数据·学习·flink
大数据编程之光31 分钟前
Flink入门介绍
大数据·flink
长风清留扬40 分钟前
一篇文章了解何为 “大数据治理“ 理论与实践
大数据·数据库·面试·数据治理
Mephisto.java41 分钟前
【大数据学习 | Spark】Spark的改变分区的算子
大数据·elasticsearch·oracle·spark·kafka·memcache