目录
[1. 自我介绍](#1. 自我介绍)
[2. 实习经历 难点](#2. 实习经历 难点)
[3. 数据倾斜](#3. 数据倾斜)
[4. CTE的执行计划](#4. CTE的执行计划)
[5. spark stage怎么划分](#5. spark stage怎么划分)
[6. 什么算子会触发宽依赖](#6. 什么算子会触发宽依赖)
[7. hive内部表和外部表区别](#7. hive内部表和外部表区别)
[8. HDFS小文件过多会有什么问题](#8. HDFS小文件过多会有什么问题)
[9. 对数仓分层的理解](#9. 对数仓分层的理解)
[10. 数仓业务域和主题域的区别](#10. 数仓业务域和主题域的区别)
[1. sql:查询某段时间借书的uid](#1. sql:查询某段时间借书的uid)
[2. sql:查询至少连续两天登录的用户](#2. sql:查询至少连续两天登录的用户)
[3. 算法:有序重复数组返回n出现的次数](#3. 算法:有序重复数组返回n出现的次数)
⏰时长:1h
1. 自我介绍
2. 实习经历 难点
3. 数据倾斜
4. CTE的执行计划
5. spark stage怎么划分
6. 什么算子会触发宽依赖
7. hive内部表和外部表区别
8. HDFS小文件过多会有什么问题
9. 对数仓分层的理解
10. 数仓业务域和主题域的区别
手撕:
1. sql:查询某段时间借书的uid
2. sql:查询至少连续两天登录的用户
3. 算法:有序重复数组返回n出现的次数
往期精彩
数仓宽表灵魂提问:如何将不同业务粒度的事实数据与维度信息整合到一张宽表中?
读者提问:如何在一张宽表上做出不同业务过程、统计不同粒度的指标?
读者提问:如何在一张宽表上做出不同业务过程、统计不同粒度的指标?
百度面试提问:数仓中什么是交叉维度,如何解决?| 附场景案例
面试提问:请描述XX业务宽表的字段构成、描述对象和粒度?| 回答模板