大数据开发学习Day26

一、Linux

查看历史执行过的所有命令
把历史命令保存到 cmd_history.txt
实时监控系统日志变化

bash 复制代码

history
history > cmd_history.txt
tail -f /var/log/messages

history ：查看当前用户所有执行过的命令，复盘操作、复用命令
history > 文件名 ：重定向把命令历史保存到文本，便于归档、排查操作记录
tail -f：实时跟踪日志输出，线上服务、大数据任务排障必备

二、SQL

1327. 列出指定时间段内所有的产品订单

sql 复制代码

SELECT
    p.product_name,
    SUM(o.unit) AS unit
FROM Products p
JOIN Orders o ON p.product_id = o.product_id
WHERE DATE_FORMAT(o.order_date,'%Y-%m') = '2020-02'
GROUP BY p.product_name;

DATE_FORMAT 按年月截取日期，精准筛选指定月份数据

多表 JOIN + 分组 SUM 聚合统计销量

电商按月商品销量统计，数仓报表高频场景

1303. 求团队人数

sql 复制代码

SELECT
    employee_id,
    COUNT(*) OVER(PARTITION BY team_id) AS team_size
FROM Employee;

窗口函数 PARTITION BY 按团队分组统计人数

不用自连接、不用子查询，一行直接带出同组总数

分组内统计指标，大数据窗口函数核心用法

1294. 不同国家的天气类型

sql 复制代码

SELECT
    c.country_name,
    CASE
        WHEN AVG(w.weather_state) > 15 THEN 'Hot'
        WHEN AVG(w.weather_state) BETWEEN 10 AND 15 THEN 'Warm'
        ELSE 'Cold'
    END AS weather_type
FROM Countries c
JOIN Weather w ON c.country_id = w.country_id
WHERE DATE_FORMAT(w.day,'%Y-%m') = '2019-11'
GROUP BY c.country_name;

月份过滤 + 国家维度关联

AVG() 求月平均气温

CASE 区间分支打标签，自动分类业务类型

维度表 + 事实表关联、聚合后分层标签经典模板

三、Pyspark

时间月份过滤 + 分组求和
分组聚合后自匹配团队人数
多表关联 + 分组均值 + 条件标签分类

python 复制代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg, date_format, count
from pyspark.sql.window import Window
import pyspark.sql.functions as F

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Day26") \
    .getOrCreate()

# 1. 2020-02 产品订单总量
products = spark.createDataFrame([(1,"Apple"),(2,"Banana")],["product_id","product_name"])
orders = spark.createDataFrame([
    (1,1,"2020-02-05",10),
    (2,1,"2020-02-10",20),
    (3,2,"2020-03-01",15)
],["order_id","product_id","order_date","unit"])

products.join(orders,on="product_id")\
         .filter(date_format(col("order_date"),"yyyy-MM")=="2020-02")\
         .groupBy("product_name")\
         .agg(sum("unit").alias("unit"))\
         .show()

# 2. 窗口函数求团队人数
emp = spark.createDataFrame([
    (1,101),(2,101),(3,102),(4,102)
],["employee_id","team_id"])

win = Window.partitionBy("team_id")
emp.withColumn("team_size", count("employee_id").over(win)).show()

spark.stop()

date_format 格式化日期，和 SQL DATE_FORMAT 对齐

窗口函数 Window.partitionBy 实现按团队分组计数

聚合、关联、条件过滤完全对标当日 SQL 业务逻辑

四、算法

35. 搜索插入位置
给定有序数组和目标值，找到目标索引；不存在则返回插入位置

python 复制代码

def searchInsert(nums, target):
    left, right = 0, len(nums)
    while left < right:
        mid = (left + right) // 2
        if nums[mid] == target:
            return mid
        elif nums[mid] < target:
            left = mid + 1
        else:
            right = mid
    return left

二分查找模板，时间 O (logn)

找不到目标直接返回插入位置，左边界二分经典写法