大数据开发学习Day32

一、Linux

查看当前目录磁盘占用大小
分页查看大文件 big.log
过滤当前目录下所有 .txt 文件

bash 复制代码
du -sh
less big.log
ls | grep ".txt$"

du -sh 查看目录总大小,快速定位磁盘占用大户

less 分页查看文件,比 vim、cat 更适合看大日志

正则 $.txt 匹配以 txt 结尾文件,过滤指定后缀

二、SQL

1757. 可回收且低脂的产品

sql 复制代码
SELECT product_id
FROM Products
WHERE low_fats = 'Y' AND recyclable = 'Y';

多条件 AND 精准筛选

标签型字段组合过滤,用户画像、商品标签圈选基础模板

1795. 每个产品在不同商店的价格

sql 复制代码
SELECT product_id, 'store1' AS store, store1 AS price FROM Products
UNION ALL
SELECT product_id, 'store2' AS store, store2 AS price FROM Products
UNION ALL
SELECT product_id, 'store3' AS store, store3 AS price FROM Products;

UNION ALL 列转行经典写法

宽表转长表,数仓建模、拉链表、宽长互转必考

手动构造维度列,适配多门店、多渠道拆分

1873. 计算特殊奖金

sql 复制代码
SELECT
    employee_id,
    CASE
        WHEN employee_id % 2 = 1 AND name NOT LIKE 'M%'
        THEN salary
        ELSE 0
    END AS bonus
FROM Employees
ORDER BY employee_id;

取模 % 判断奇偶

LIKE 'M%' 前缀模糊匹配

CASE 多规则分支计算衍生字段

薪资核算、补贴规则类 SQL 通用套路

三、Pyspark

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, when

spark = SparkSession.builder.master("local[*]").appName("Day32").getOrCreate()

# 1. 同时低脂+可回收
prod = spark.createDataFrame([
    (1,"Y","Y"),(2,"Y","N")
], ["product_id","low_fats","recyclable"])

prod.filter((col("low_fats")=="Y") & (col("recyclable")=="Y")).show()

# 2. 宽表转长表 行转列
df = spark.createDataFrame([
    (1,100,200,150)
], ["product_id","store1","store2","store3"])

df1 = df.select("product_id", lit("store1").alias("store"), col("store1").alias("price"))
df2 = df.select("product_id", lit("store2").alias("store"), col("store2").alias("price"))
df3 = df.select("product_id", lit("store3").alias("store"), col("store3").alias("price"))

df1.unionAll(df2).unionAll(df3).show()

spark.stop()

Spark 多条件过滤用 &,条件加括号

lit() 构造常量字段,对应 SQL 手写字符串

unionAll 实现宽表拆分成多行,和 UNION ALL 逻辑一致

四、算法

125. 验证回文串

python 复制代码
def isPalindrome(s: str) -> bool:
    s = ''.join(ch.lower() for ch in s if ch.isalnum())
    return s == s[::-1]

只保留字母数字、统一转小写

切片反转字符串直接对比

字符串预处理 + 回文判断,面试基础高频题

相关推荐
库奇噜啦呼1 小时前
【iOS】源码学习-消息流程分析
学习·ios·cocoa
承渊政道1 小时前
【贪心算法】(经典实战应用解析(二):最⻓递增⼦序列、递增的三元⼦序列、最⻓连续递增序列、买卖股票的最佳时机、买卖股票的最佳时机II)
数据结构·c++·学习·算法·leetcode·贪心算法·哈希算法
li星野1 小时前
动态规划十题通关:从爬楼梯到编辑距离(Python + C++)
c++·python·学习·算法·动态规划
Tutankaaa1 小时前
学校知识竞赛怎么组织?从班级到年级的进阶方案
经验分享·学习·算法·职场和发展
li星野2 小时前
二叉树十题通关:从层序遍历到序列化(Python + C++)
开发语言·c++·python·学习
南境十里·墨染春水2 小时前
线程池学习(一) 理解 进程 线程 协程及上下文切换
java·开发语言·学习
Mr.H01272 小时前
C语言MQTT学习系列(3篇):第一篇:从零开始学MQTT(C语言版):入门必看,跑通最简Demo
c语言·网络·学习
Cat_Rocky11 小时前
k8s-持久化存储,粗浅学习
java·学习·kubernetes
AOwhisky12 小时前
虚拟化技术学习笔记
linux·运维·笔记·学习·虚拟化技术