ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
IT成长日记25 分钟前
Elasticsearch集群手动分片分配指南:原理与实践
大数据·elasticsearch·手动分片分配
workflower26 分钟前
量子比特实现方式
数据仓库·服务发现·需求分析·量子计算·软件需求
zdkdchao7 小时前
hbase资源和数据权限控制
大数据·数据库·hbase
归去_来兮8 小时前
知识图谱技术概述
大数据·人工智能·知识图谱
青春之我_XP9 小时前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
Mikhail_G11 小时前
Python应用函数调用(二)
大数据·运维·开发语言·python·数据分析
黑客笔记12 小时前
攻防世界-XCTF-Web安全最佳刷题路线
大数据·安全·web安全
软件测试小仙女12 小时前
鸿蒙APP测试实战:从HDC命令到专项测试
大数据·软件测试·数据库·人工智能·测试工具·华为·harmonyos
Elastic 中国社区官方博客13 小时前
Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索·aws
反向跟单策略13 小时前
期货反向跟单运营逻辑推导思路
大数据·人工智能·数据分析·区块链