大数据开发学习Day26

一、Linux

查看历史执行过的所有命令
把历史命令保存到 cmd_history.txt
实时监控系统日志变化

bash 复制代码
history
history > cmd_history.txt
tail -f /var/log/messages

history :查看当前用户所有执行过的命令,复盘操作、复用命令
history > 文件名 :重定向把命令历史保存到文本,便于归档、排查操作记录
tail -f:实时跟踪日志输出,线上服务、大数据任务排障必备

二、SQL

1327. 列出指定时间段内所有的产品订单

sql 复制代码
SELECT
    p.product_name,
    SUM(o.unit) AS unit
FROM Products p
JOIN Orders o ON p.product_id = o.product_id
WHERE DATE_FORMAT(o.order_date,'%Y-%m') = '2020-02'
GROUP BY p.product_name;

DATE_FORMAT 按年月截取日期,精准筛选指定月份数据

多表 JOIN + 分组 SUM 聚合统计销量

电商按月商品销量统计,数仓报表高频场景

1303. 求团队人数

sql 复制代码
SELECT
    employee_id,
    COUNT(*) OVER(PARTITION BY team_id) AS team_size
FROM Employee;

窗口函数 PARTITION BY 按团队分组统计人数

不用自连接、不用子查询,一行直接带出同组总数

分组内统计指标,大数据窗口函数核心用法

1294. 不同国家的天气类型

sql 复制代码
SELECT
    c.country_name,
    CASE
        WHEN AVG(w.weather_state) > 15 THEN 'Hot'
        WHEN AVG(w.weather_state) BETWEEN 10 AND 15 THEN 'Warm'
        ELSE 'Cold'
    END AS weather_type
FROM Countries c
JOIN Weather w ON c.country_id = w.country_id
WHERE DATE_FORMAT(w.day,'%Y-%m') = '2019-11'
GROUP BY c.country_name;

月份过滤 + 国家维度关联

AVG() 求月平均气温

CASE 区间分支打标签,自动分类业务类型

维度表 + 事实表关联、聚合后分层标签经典模板

三、Pyspark

时间月份过滤 + 分组求和
分组聚合后自匹配团队人数
多表关联 + 分组均值 + 条件标签分类

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg, date_format, count
from pyspark.sql.window import Window
import pyspark.sql.functions as F

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Day26") \
    .getOrCreate()

# 1. 2020-02 产品订单总量
products = spark.createDataFrame([(1,"Apple"),(2,"Banana")],["product_id","product_name"])
orders = spark.createDataFrame([
    (1,1,"2020-02-05",10),
    (2,1,"2020-02-10",20),
    (3,2,"2020-03-01",15)
],["order_id","product_id","order_date","unit"])

products.join(orders,on="product_id")\
         .filter(date_format(col("order_date"),"yyyy-MM")=="2020-02")\
         .groupBy("product_name")\
         .agg(sum("unit").alias("unit"))\
         .show()

# 2. 窗口函数求团队人数
emp = spark.createDataFrame([
    (1,101),(2,101),(3,102),(4,102)
],["employee_id","team_id"])

win = Window.partitionBy("team_id")
emp.withColumn("team_size", count("employee_id").over(win)).show()

spark.stop()

date_format 格式化日期,和 SQL DATE_FORMAT 对齐

窗口函数 Window.partitionBy 实现按团队分组计数

聚合、关联、条件过滤完全对标当日 SQL 业务逻辑

四、算法

35. 搜索插入位置
给定有序数组和目标值,找到目标索引;不存在则返回插入位置

python 复制代码
def searchInsert(nums, target):
    left, right = 0, len(nums)
    while left < right:
        mid = (left + right) // 2
        if nums[mid] == target:
            return mid
        elif nums[mid] < target:
            left = mid + 1
        else:
            right = mid
    return left

二分查找模板,时间 O (logn)

找不到目标直接返回插入位置,左边界二分经典写法

相关推荐
橙淮15 小时前
并发编程(六)
java·jvm
段一凡-华北理工大学16 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
拽着尾巴的鱼儿16 小时前
springboot openfeign 自定义feign 接口重试机制
java·spring boot·后端
白露与泡影16 小时前
2026大厂Java面试题大全!牛客网最新版
java·开发语言
喜欢踢足球的老罗16 小时前
从移动开发转型 AI Agent 工程师:我做了一个开源学习系统
人工智能·学习
狒狒热知识16 小时前
合规筑基专业赋能178软文网引领软文营销行业规范化发展
大数据
EntyIU16 小时前
JVM内存与GC笔记
java·jvm·笔记
wuxinyan12317 小时前
工业级大模型学习之路030:Streamlit 企业级智能体前端工作台
前端·学习·streamlit·智能体
XS03010617 小时前
并发编程 六
java·后端
yaoxin52112317 小时前
419. 现代 Java IO 最佳实践 - 写入文本文件
java·windows·python