ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
Elastic 中国社区官方博客1 小时前
使用真实 Elasticsearch 进行高级集成测试
大数据·数据库·elasticsearch·搜索引擎·全文检索·jenkins·集成测试
好记性+烂笔头1 小时前
4 Spark Streaming
大数据·ajax·spark
想做富婆2 小时前
Hive:窗口函数[ntile, first_value,row_number() ,rank(),dens_rank()]和自定义函数
数据仓库·hive·hadoop
好记性+烂笔头5 小时前
3 Flink 运行架构
大数据·架构·flink
字节侠5 小时前
Flink2支持提交StreamGraph到Flink集群
大数据·flink·streamgraph·flink2·jobgraph
好记性+烂笔头9 小时前
4 Hadoop 面试真题
大数据·hadoop·面试
好记性+烂笔头9 小时前
10 Flink CDC
大数据·flink
赵渝强老师11 小时前
【赵渝强老师】Spark RDD的依赖关系和任务阶段
大数据·缓存·spark
小小のBigData11 小时前
【2025年更新】1000个大数据/人工智能毕设选题推荐
大数据·人工智能·课程设计
risc12345612 小时前
【Elasticsearch 】悬挂索引(Dangling Indices)
大数据·elasticsearch·搜索引擎