ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
杨荧1 小时前
基于Python的宠物服务管理系统 Python+Django+Vue.js
大数据·前端·vue.js·爬虫·python·信息可视化
健康平安的活着1 小时前
es7.x es的高亮与solr高亮查询的对比&对比说明
大数据·elasticsearch·solr
缘华工业智维2 小时前
CNN 在故障诊断中的应用:原理、案例与优势
大数据·运维·cnn
更深兼春远2 小时前
spark+scala安装部署
大数据·spark·scala
阿里云大数据AI技术3 小时前
ODPS 十五周年实录 | 为 AI 而生的数据平台
大数据·数据分析·开源
SelectDB技术团队3 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
哈哈很哈哈4 小时前
Spark 运行流程核心组件(三)任务执行
大数据·分布式·spark
我星期八休息5 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python
程序员小羊!5 小时前
数据仓库&OLTP&OLAP&维度讲解
数据仓库
最初的↘那颗心6 小时前
Flink Stream API - 源码开发需求描述
java·大数据·hadoop·flink·实时计算