大数据开发学习Day27

一、Linux

查看当前系统环境变量
临时设置环境变量 JAVA_HOME=/usr/local/jdk
查找当前目录下所有 .log 后缀文件

bash 复制代码
env
export JAVA_HOME=/usr/local/jdk
find . -name "*.log"

env 查看全部环境变量,排查 JDK、Hadoop、Spark 环境配置
export 临时设置环境变量,会话生效,重启失效
find . -name "*.log" 按后缀批量找日志文件,大数据日志排查刚需

二、SQL

1341. 电影评分

sql 复制代码
-- 评分最多的用户
(
SELECT u.name
FROM MovieRating r
JOIN Users u ON r.user_id = u.user_id
GROUP BY u.user_id, u.name
ORDER BY COUNT(*) DESC, u.name ASC
LIMIT 1
)
UNION ALL
-- 2020-02 均分最高电影
(
SELECT m.title
FROM MovieRating r
JOIN Movies m ON r.movie_id = m.movie_id
WHERE DATE_FORMAT(r.created_at,'%Y-%m') = '2020-02'
GROUP BY r.movie_id, m.title
ORDER BY AVG(r.rating) DESC, m.title ASC
LIMIT 1
);

UNION ALL 合并两个结果集

分组统计次数 / 平均分 + 多字段排序兜底

同分、同频次按字典序最小选取,面试高频细节考点

多表关联 + 时间过滤 + 聚合排名,数仓综合题型

1350. 院系无效员工

sql 复制代码
SELECT e.name
FROM Employees e
LEFT JOIN Departments d 
ON e.id = d.id
WHERE d.id IS NULL;

LEFT JOIN + 右表字段IS NULL 求无匹配脏数据

数仓清洗常用:过滤维度不存在的无效业务数据

左连接空值判断经典模板

1366. 团队投票排名

sql 复制代码
SELECT 
    team_id,
    COUNT(DISTINCT member_id) AS vote_cnt
FROM TeamVotes
GROUP BY team_id
ORDER BY vote_cnt DESC, team_id ASC;

COUNT(DISTINCT) 去重统计人数

多字段排序:先按指标降序,再按维度 id 升序

业务榜单、排名报表标准写法

三、Pyspark

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, countDistinct, avg, date_format

spark = SparkSession.builder.master("local[*]").appName("Day27").getOrCreate()

# 1. 无效员工筛选 LeftJoin 空值过滤
emp = spark.createDataFrame([(1,"Alice"),(2,"Bob")],["id","name"])
dept = spark.createDataFrame([(1,"HR")],["id","name"])

emp.join(dept, on="id", how="left")\
   .filter(col("dept.name").isNull())\
   .select("emp.name").show()

# 2. 团队投票人数统计
vote = spark.createDataFrame([
    (1,101), (1,102), (2,101)
], ["team_id","member_id"])

vote.groupBy("team_id")\
    .agg(countDistinct("member_id").alias("vote_cnt"))\
    .orderBy(col("vote_cnt").desc(), col("team_id").asc())\
    .show()

spark.stop()

Spark 左外连接 + 空值过滤做数据清洗

countDistinct 去重计数,和 SQL 完全对齐

多字段排序控制榜单展示规则

四、算法

26. 删除有序数组中的重复项

python 复制代码
def removeDuplicates(nums):
    if not nums:
        return 0
    slow = 0
    for fast in range(1, len(nums)):
        if nums[fast] != nums[slow]:
            slow += 1
            nums[slow] = nums[fast]
    return slow + 1

快慢指针原地去重

有序数组经典双指针套路

空间 O (1) 原地修改,面试必背

相关推荐
名不经传的养虾人1 小时前
从0到1:企业级AI项目迭代日记 Vol.18|功能被悄悄改没了,然后我们写了个看门狗
大数据·人工智能·ai编程·企业ai·多agent协作
van久1 小时前
Day21 第三周总结 + 用户模块收官复盘(可直接当学习笔记)
学习
Byron__1 小时前
Java并发核心面试知识点
java·面试·多线程·并发编程
Java成神之路-1 小时前
Java SPI vs Spring SPI
java·spring
希望永不加班2 小时前
Java数据类型陷阱:int和Integer的7个关键区别
java·开发语言
Slow菜鸟2 小时前
Docker 学习篇(五)| Docker 常用命令
学习·docker·容器
boonya2 小时前
Idea CC GUI插件如何通过 CC Switch 工具将 Claude Code 的后端配置为 DeepSeek 的 v4-pro 模型?
java·ide·intellij-idea
无忧智库2 小时前
从0开始全面认识高质量数据集建设指南
大数据·人工智能·知识图谱