某小型外包—ETL工程师面试

没有包装简历,面试感觉跟聊天一样,会就是会,不会就是不会。

1.datax和sqoop的对比,优点与缺点

1.1 datax的组件

2.sql的执行顺序。

select a.* ,b* from a left join b on a.id = b.id 先join 再 select。

3.数据采集到数仓中,做了那些清洗。

4.hive表有哪几种数据格式。

5.hive的sql有哪些优化方式

6.linux命令是否熟悉。

如何修改linux的文件的属性

7.有什么要问的

  1. java相关

8.1 java的数据结构有那些。

  1. 从kafka中消费数据的命令。 这个忘记了 ,赶紧项目跑起来。

  2. 如何进行数据建模,常见的模型。

最后,确认期望薪资在6k以上。 同时反问,用到的组件有dataworks, 可能用到python。

相关推荐
juniperhan11 小时前
Flink 系列第4篇:Flink 时间系统与 Timer 定时器实战精讲
java·大数据·数据仓库·flink
juniperhan14 小时前
link 系列第7篇:Flink 状态管理全解析(原理+类型+存储+实操)
大数据·数据仓库·flink
juniperhan15 小时前
Flink 系列第6篇:Watermark 水印全解析(原理+实操+避坑)
大数据·数据仓库·flink
2501_933329551 天前
技术深度剖析:Infoseek 字节探索舆情处置系统的全链路架构与核心实现
大数据·数据仓库·人工智能·自然语言处理·架构
虚幻如影2 天前
Hive 中“STRING类型无需显式指定长度
数据仓库·hive·hadoop
荒川之神2 天前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
RestCloud2 天前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输
荒川之神2 天前
Oracle 数据仓库星座模型(Galaxy Model)设计原则
数据库·数据仓库·oracle
瀚高PG实验室2 天前
ETL中,分区表子表未及时收集统计信息,导致sql执行耗时很长
数据库·数据仓库·sql·etl·瀚高数据库
荒川之神2 天前
Oracle 数据仓库雪花模型设计原则(核心 + 落地 + Oracle 数据库适配)
数据库·数据仓库·oracle