一、Linux
查看当前系统环境变量
临时设置环境变量 JAVA_HOME=/usr/local/jdk
查找当前目录下所有 .log 后缀文件
bash
env
export JAVA_HOME=/usr/local/jdk
find . -name "*.log"
env 查看全部环境变量,排查 JDK、Hadoop、Spark 环境配置
export 临时设置环境变量,会话生效,重启失效
find . -name "*.log" 按后缀批量找日志文件,大数据日志排查刚需
二、SQL
1341. 电影评分

sql
-- 评分最多的用户
(
SELECT u.name
FROM MovieRating r
JOIN Users u ON r.user_id = u.user_id
GROUP BY u.user_id, u.name
ORDER BY COUNT(*) DESC, u.name ASC
LIMIT 1
)
UNION ALL
-- 2020-02 均分最高电影
(
SELECT m.title
FROM MovieRating r
JOIN Movies m ON r.movie_id = m.movie_id
WHERE DATE_FORMAT(r.created_at,'%Y-%m') = '2020-02'
GROUP BY r.movie_id, m.title
ORDER BY AVG(r.rating) DESC, m.title ASC
LIMIT 1
);
UNION ALL 合并两个结果集
分组统计次数 / 平均分 + 多字段排序兜底
同分、同频次按字典序最小选取,面试高频细节考点
多表关联 + 时间过滤 + 聚合排名,数仓综合题型
1350. 院系无效员工

sql
SELECT e.name
FROM Employees e
LEFT JOIN Departments d
ON e.id = d.id
WHERE d.id IS NULL;
LEFT JOIN + 右表字段IS NULL 求无匹配脏数据
数仓清洗常用:过滤维度不存在的无效业务数据
左连接空值判断经典模板
1366. 团队投票排名

sql
SELECT
team_id,
COUNT(DISTINCT member_id) AS vote_cnt
FROM TeamVotes
GROUP BY team_id
ORDER BY vote_cnt DESC, team_id ASC;
COUNT(DISTINCT) 去重统计人数
多字段排序:先按指标降序,再按维度 id 升序
业务榜单、排名报表标准写法
三、Pyspark
python
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, countDistinct, avg, date_format
spark = SparkSession.builder.master("local[*]").appName("Day27").getOrCreate()
# 1. 无效员工筛选 LeftJoin 空值过滤
emp = spark.createDataFrame([(1,"Alice"),(2,"Bob")],["id","name"])
dept = spark.createDataFrame([(1,"HR")],["id","name"])
emp.join(dept, on="id", how="left")\
.filter(col("dept.name").isNull())\
.select("emp.name").show()
# 2. 团队投票人数统计
vote = spark.createDataFrame([
(1,101), (1,102), (2,101)
], ["team_id","member_id"])
vote.groupBy("team_id")\
.agg(countDistinct("member_id").alias("vote_cnt"))\
.orderBy(col("vote_cnt").desc(), col("team_id").asc())\
.show()
spark.stop()
Spark 左外连接 + 空值过滤做数据清洗
countDistinct 去重计数,和 SQL 完全对齐
多字段排序控制榜单展示规则
四、算法
26. 删除有序数组中的重复项
python
def removeDuplicates(nums):
if not nums:
return 0
slow = 0
for fast in range(1, len(nums)):
if nums[fast] != nums[slow]:
slow += 1
nums[slow] = nums[fast]
return slow + 1
快慢指针原地去重
有序数组经典双指针套路
空间 O (1) 原地修改,面试必背