ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
隔着天花板看星星2 小时前
Hive-存储-文件格式
数据仓库·hive·hadoop
isNotNullX2 小时前
6种ETL计算引擎介绍
数据仓库·etl
bjshinegood3 小时前
什么是私域流量?私域流量为什么越来越多人做?
大数据·微信·企业微信
天才的白鸟5 小时前
电商数据仓库
数据仓库
小的~~5 小时前
大数据面试题之数据库(2)
大数据·数据库
迅腾文化5 小时前
品牌推广的深层逻辑:自我提升与市场认同的和谐共生
大数据·人工智能·物联网·信息可视化·媒体
迅狐源码工厂7 小时前
视频号矩阵管理系统:短视频内容营销的智能助手
大数据·人工智能·矩阵
寰宇视讯7 小时前
新疆水博会将举办多场高端论坛探析水利科技创新发展
大数据·科技
我非夏日8 小时前
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务6:安装并配置Hadoop
大数据·hadoop·分布式
白鲸开源8 小时前
8分钟带你快速了解Connector/Catalog API的核心设计
大数据