ETL工程师-面试

1.自我介绍

2.数据流程

3.说下自己写过的脚本

4.关于hive提问

4.1 如何把服务器中的数据上传到hive表里面

4.2 hive中的一个表分区的数据怎么导入到另一个表中的分区中。

4.3 如果一个字段 不为空,取空值,如果字段为空,取默认值

4.4 udf, udtf使用场景

5.Flink的数据一致性

Flink中在kafka中数据重新再写回到kafka里面有什么好处。

6.项目中为什么使用orc和snappy? 对比其他的存储算法,有什么好处。

7.你们是自己做运维的吗,集群中出现一些问题,该如何解决。

总结----

面试过程中出现了一些卡顿,主要是场景题时。

相关推荐
极创信息1 小时前
Linux挖矿病毒深度清理实战教程,从进程隐藏、Rootkit驻留到彻底根除
java·大数据·linux·运维·安全·tomcat·健康医疗
SEO_juper2 小时前
Semrush 蓝海关键词筛选,AI 一键拓展完整词库
大数据·谷歌·seo·geo·gemini·询盘·b2b
Nefu_lyh3 小时前
【Hive】七、Hive 函数:聚合 / 统计 / 分位数 / 集合 / 高级分组
数据仓库·hive·hadoop
阿 才3 小时前
跟文件系统(busybox)的构建
大数据·hadoop·分布式
宁波鹿语心理4 小时前
过度卷入的三角化:养育者情感投射对青少年自我边界形成的结构性影响及干预路径
大数据
逐米时代4 小时前
制造型企业AI智能体实施步骤详解:提升协同效率的实战指南
大数据·人工智能
大嘴皮猴儿4 小时前
跨境电商运营笔记:我是如何用工具解决多语言素材问题的
大数据·人工智能·新媒体运营·自动翻译·教育电商
赤龙ERP4 小时前
赤龙一周观察 · 6月第2周
大数据·人工智能·ai·erp
JGDT_4 小时前
ERP重塑与未来趋势:SAP的实践及大一统格局(上)
大数据·人工智能·安全·架构·开源
ACP广源盛139246256735 小时前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑