大数据开发学习Day39

一、Linux

1. 统计指定目录下目录总个数

bash 复制代码
ls -l /opt/bigdata/ | grep "^d" | wc -l

grep "^d" 只筛选文件夹类型

wc -l 统计行数即目录数量

用途:盘点业务目录、归档文件夹数量

2. HDFS 删除过期分区数据

bash 复制代码
hdfs dfs -rm -r /user/hive/ods/log/dt=2026-04*

通配符批量删除整月过期分区,释放集群存储

生产定期清理冷数据必备操作

删除前建议先 ls 核对路径,避免误删

3. 查看端口占用并终止进程

bash 复制代码
netstat -tulpn | grep 8080
kill -9 进程PID

查询指定端口被哪个程序占用

端口冲突、服务启动失败时排查使用

二、SQL

表结构

dwd_store_order门店订单:store_id,order_id,order_amount,pay_time

dwd_user_browse用户浏览:user_id,goods_id,browse_time,stay_sec

dwd_vip_info会员信息:user_id,vip_level,expire_time,recharge_money

1. 统计各门店日均订单与营收

sql 复制代码
SELECT
store_id,
COUNT(order_id)/COUNT(DISTINCT date(pay_time)) avg_order_num,
SUM(order_amount)/COUNT(DISTINCT date(pay_time)) avg_income
FROM dwd_store_order
GROUP BY store_id;

先统计门店总订单、总营收

除以营业天数得到日均指标

用于门店业绩评估、门店效益对比

2. 统计商品平均浏览时长与访问人次

sql 复制代码
SELECT
goods_id,
ROUND(AVG(stay_sec),1) avg_stay,
COUNT(DISTINCT user_id) visit_user
FROM dwd_user_browse
WHERE browse_time >= '2026-05-01'
GROUP BY goods_id;

平均停留时长判断商品吸引力

去重统计访客数,衡量商品热度

时间过滤缩小扫描范围,提升查询效率

3. 分级统计会员充值总额

sql 复制代码
SELECT
vip_level,
COUNT(user_id) vip_count,
SUM(recharge_money) total_recharge
FROM dwd_vip_info
WHERE expire_time > current_date
GROUP BY vip_level
ORDER BY total_recharge DESC;

只统计在有效期内会员

按会员等级分组统计人数与充值金额

排序直观看出高等级会员消费贡献

三、Pyspark

今日重点:Structured Streaming 水印处理乱序数据

  • 业务场景

    网络延迟导致数据流时间错乱,晚到数据无法正常统计,指标失真

  • 核心代码

python 复制代码
from pyspark.sql.functions import col,window

# 读取流数据
stream_df = spark.readStream.format("kafka").load()
data_df = stream_df.select(from_json(col("value").cast("string"),schema).alias("data")).select("data.*")

# 设置水印:允许10秒内晚到数据
water_df = data_df.withWatermark("event_time", "10 seconds")

# 5分钟滚动窗口统计
window_df = water_df.groupBy(window(col("event_time"),"5 minute"),col("event_type")).count()

逐点讲解

withWatermark(时间字段, 延迟时长) 定义容忍乱序范围

超出容忍时间的数据直接丢弃,避免无限堆积状态

窗口聚合结合水印,保证实时指标准确且释放内存

流处理统计 PV、UV、交易指标必备写法

  • 实战注意

    水印字段必须是窗口分组依赖的时间字段

    延迟时长根据业务网络波动合理设置

  • 配套调参

python 复制代码
# 优化流任务状态过期清理
spark.conf.set("spark.sql.streaming.stateTTL.cleanupDelay","30s")

四、算法

反转字符串

python 复制代码
def reverseString(s):
    left, right = 0, len(s)-1
    while left < right:
        s[left], s[right] = s[right], s[left]
        left += 1
        right -= 1

思路讲解

双指针头尾交换元素,原地反转不额外开辟空间

时间效率高,数据清洗字段翻转、日志倒序解析常用

无额外内存开销,大数据批量处理友好

相关推荐
song150265372983 小时前
光伏iv测试仪 光伏电池片组件IV测试设备 太阳光模拟器
大数据·人工智能
魔法阵维护师3 小时前
从零开发游戏需要学习的c#模块,第十章(设计模式入门)
学习·游戏·设计模式·c#
GEO从入门到精通3 小时前
GEO学习能帮我提高AI搜索排名吗?
人工智能·学习
ᰔᩚ. 一怀明月ꦿ3 小时前
MySQL 学习目标
学习·mysql·adb
吃好睡好便好3 小时前
用if…end…语句计算分段函数
开发语言·人工智能·学习·算法·matlab
爱睡懒觉的焦糖玛奇朵3 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具Video To YOLO Dataset】
人工智能·python·学习·yolo·音视频
Dust-Chasing4 小时前
Claude Code源码剖析 - Phase3
开发语言·人工智能·学习
有为少年4 小时前
Welford算法 | 从单一到批次
大数据·人工智能·深度学习·神经网络·算法·机器学习
godspeed_lucip4 小时前
LLM和Agent——专题3: Agentic Workflow 入门(1)
大数据·数据库·人工智能