大数据开发学习Day26

一、Linux

查看历史执行过的所有命令
把历史命令保存到 cmd_history.txt
实时监控系统日志变化

bash 复制代码
history
history > cmd_history.txt
tail -f /var/log/messages

history :查看当前用户所有执行过的命令,复盘操作、复用命令
history > 文件名 :重定向把命令历史保存到文本,便于归档、排查操作记录
tail -f:实时跟踪日志输出,线上服务、大数据任务排障必备

二、SQL

1327. 列出指定时间段内所有的产品订单

sql 复制代码
SELECT
    p.product_name,
    SUM(o.unit) AS unit
FROM Products p
JOIN Orders o ON p.product_id = o.product_id
WHERE DATE_FORMAT(o.order_date,'%Y-%m') = '2020-02'
GROUP BY p.product_name;

DATE_FORMAT 按年月截取日期,精准筛选指定月份数据

多表 JOIN + 分组 SUM 聚合统计销量

电商按月商品销量统计,数仓报表高频场景

1303. 求团队人数

sql 复制代码
SELECT
    employee_id,
    COUNT(*) OVER(PARTITION BY team_id) AS team_size
FROM Employee;

窗口函数 PARTITION BY 按团队分组统计人数

不用自连接、不用子查询,一行直接带出同组总数

分组内统计指标,大数据窗口函数核心用法

1294. 不同国家的天气类型

sql 复制代码
SELECT
    c.country_name,
    CASE
        WHEN AVG(w.weather_state) > 15 THEN 'Hot'
        WHEN AVG(w.weather_state) BETWEEN 10 AND 15 THEN 'Warm'
        ELSE 'Cold'
    END AS weather_type
FROM Countries c
JOIN Weather w ON c.country_id = w.country_id
WHERE DATE_FORMAT(w.day,'%Y-%m') = '2019-11'
GROUP BY c.country_name;

月份过滤 + 国家维度关联

AVG() 求月平均气温

CASE 区间分支打标签,自动分类业务类型

维度表 + 事实表关联、聚合后分层标签经典模板

三、Pyspark

时间月份过滤 + 分组求和
分组聚合后自匹配团队人数
多表关联 + 分组均值 + 条件标签分类

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg, date_format, count
from pyspark.sql.window import Window
import pyspark.sql.functions as F

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Day26") \
    .getOrCreate()

# 1. 2020-02 产品订单总量
products = spark.createDataFrame([(1,"Apple"),(2,"Banana")],["product_id","product_name"])
orders = spark.createDataFrame([
    (1,1,"2020-02-05",10),
    (2,1,"2020-02-10",20),
    (3,2,"2020-03-01",15)
],["order_id","product_id","order_date","unit"])

products.join(orders,on="product_id")\
         .filter(date_format(col("order_date"),"yyyy-MM")=="2020-02")\
         .groupBy("product_name")\
         .agg(sum("unit").alias("unit"))\
         .show()

# 2. 窗口函数求团队人数
emp = spark.createDataFrame([
    (1,101),(2,101),(3,102),(4,102)
],["employee_id","team_id"])

win = Window.partitionBy("team_id")
emp.withColumn("team_size", count("employee_id").over(win)).show()

spark.stop()

date_format 格式化日期,和 SQL DATE_FORMAT 对齐

窗口函数 Window.partitionBy 实现按团队分组计数

聚合、关联、条件过滤完全对标当日 SQL 业务逻辑

四、算法

35. 搜索插入位置
给定有序数组和目标值,找到目标索引;不存在则返回插入位置

python 复制代码
def searchInsert(nums, target):
    left, right = 0, len(nums)
    while left < right:
        mid = (left + right) // 2
        if nums[mid] == target:
            return mid
        elif nums[mid] < target:
            left = mid + 1
        else:
            right = mid
    return left

二分查找模板,时间 O (logn)

找不到目标直接返回插入位置,左边界二分经典写法

相关推荐
代码的小搬运工1 小时前
Masonry学习
学习·macos·cocoa
云深处@1 小时前
【项目一】高并发内存池
java·开发语言
玖妍呐1 小时前
纠结课外辅导选线上还是线下?2026高适配线上学习软件推荐
学习
yantaohk2 小时前
普通人怎么利用PCDN赚钱?几个接地气的案例告诉你
大数据·网络
xiangzhihong82 小时前
Claude Code系列教程之Claude Code并行任务
大数据·elasticsearch·搜索引擎
wuxinyan1232 小时前
大模型学习之路006:RAG 零基础入门教程(第三篇):BM25 关键词检索与混合检索实战
人工智能·学习·rag
Shadow(⊙o⊙)2 小时前
linux基础指令2.0
linux·运维·服务器·学习·apache
书源丶2 小时前
三十九、Java 枚举——固定常量的「安全卫士」
java·开发语言
计算机毕业编程指导师2 小时前
【大数据毕设推荐】Hadoop+Spark电影票房分析系统,Python+Django全栈实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·电影票房