字节数开一面

莫叫石榴姐2025-10-17 15:14

⏰时长：1h

[1. 自我介绍](#1. 自我介绍)

[2. 实习经历难点](#2. 实习经历难点)

[3. 数据倾斜](#3. 数据倾斜)

[4. CTE的执行计划](#4. CTE的执行计划)

[5. spark stage怎么划分](#5. spark stage怎么划分)

[6. 什么算子会触发宽依赖](#6. 什么算子会触发宽依赖)

[7. hive内部表和外部表区别](#7. hive内部表和外部表区别)

[8. HDFS小文件过多会有什么问题](#8. HDFS小文件过多会有什么问题)

[9. 对数仓分层的理解](#9. 对数仓分层的理解)

[10. 数仓业务域和主题域的区别](#10. 数仓业务域和主题域的区别)

手撕：

[1. sql：查询某段时间借书的uid](#1. sql：查询某段时间借书的uid)

[2. sql：查询至少连续两天登录的用户](#2. sql：查询至少连续两天登录的用户)

[3. 算法：有序重复数组返回n出现的次数](#3. 算法：有序重复数组返回n出现的次数)

往期精彩

⏰时长：1h

1. 自我介绍

2. 实习经历难点

3. 数据倾斜

4. CTE的执行计划

5. spark stage怎么划分

6. 什么算子会触发宽依赖

7. hive内部表和外部表区别

8. HDFS小文件过多会有什么问题

9. 对数仓分层的理解

10. 数仓业务域和主题域的区别

手撕：

1. sql：查询某段时间借书的uid

2. sql：查询至少连续两天登录的用户

3. 算法：有序重复数组返回n出现的次数

往期精彩

面试提问：ADS层SLA如何保障？

数仓宽表灵魂提问：如何将不同业务粒度的事实数据与维度信息整合到一张宽表中？

读者提问：如何在一张宽表上做出不同业务过程、统计不同粒度的指标？

面试提问：Hive中如何高效的判断两张表数据是否完全一致？

读者提问：如何在一张宽表上做出不同业务过程、统计不同粒度的指标？

百度面试提问：数仓中什么是交叉维度，如何解决？| 附场景案例

面试提问：请描述XX业务宽表的字段构成、描述对象和粒度？| 回答模板

面试官灵魂提问：数仓ADS层需要分区吗？

基于 DolphineScheduler 中使用计数器方式实现的双表切换

面试提问：SQL 查询无数据时如何强制返回一行 0 | 通用兜底方案全解析

字节数开一面

⏰时长：1h

1. 自我介绍

2. 实习经历 难点

3. 数据倾斜

4. CTE的执行计划

5. spark stage怎么划分

6. 什么算子会触发宽依赖

7. hive内部表和外部表区别

8. HDFS小文件过多会有什么问题

9. 对数仓分层的理解

10. 数仓业务域和主题域的区别

手撕：

1. sql：查询某段时间借书的uid

2. sql：查询至少连续两天登录的用户

3. 算法：有序重复数组返回n出现的次数

往期精彩

2. 实习经历难点