大数据开发学习Day39

一、Linux

1. 统计指定目录下目录总个数

bash 复制代码
ls -l /opt/bigdata/ | grep "^d" | wc -l

grep "^d" 只筛选文件夹类型

wc -l 统计行数即目录数量

用途:盘点业务目录、归档文件夹数量

2. HDFS 删除过期分区数据

bash 复制代码
hdfs dfs -rm -r /user/hive/ods/log/dt=2026-04*

通配符批量删除整月过期分区,释放集群存储

生产定期清理冷数据必备操作

删除前建议先 ls 核对路径,避免误删

3. 查看端口占用并终止进程

bash 复制代码
netstat -tulpn | grep 8080
kill -9 进程PID

查询指定端口被哪个程序占用

端口冲突、服务启动失败时排查使用

二、SQL

表结构

dwd_store_order门店订单:store_id,order_id,order_amount,pay_time

dwd_user_browse用户浏览:user_id,goods_id,browse_time,stay_sec

dwd_vip_info会员信息:user_id,vip_level,expire_time,recharge_money

1. 统计各门店日均订单与营收

sql 复制代码
SELECT
store_id,
COUNT(order_id)/COUNT(DISTINCT date(pay_time)) avg_order_num,
SUM(order_amount)/COUNT(DISTINCT date(pay_time)) avg_income
FROM dwd_store_order
GROUP BY store_id;

先统计门店总订单、总营收

除以营业天数得到日均指标

用于门店业绩评估、门店效益对比

2. 统计商品平均浏览时长与访问人次

sql 复制代码
SELECT
goods_id,
ROUND(AVG(stay_sec),1) avg_stay,
COUNT(DISTINCT user_id) visit_user
FROM dwd_user_browse
WHERE browse_time >= '2026-05-01'
GROUP BY goods_id;

平均停留时长判断商品吸引力

去重统计访客数,衡量商品热度

时间过滤缩小扫描范围,提升查询效率

3. 分级统计会员充值总额

sql 复制代码
SELECT
vip_level,
COUNT(user_id) vip_count,
SUM(recharge_money) total_recharge
FROM dwd_vip_info
WHERE expire_time > current_date
GROUP BY vip_level
ORDER BY total_recharge DESC;

只统计在有效期内会员

按会员等级分组统计人数与充值金额

排序直观看出高等级会员消费贡献

三、Pyspark

今日重点:Structured Streaming 水印处理乱序数据

  • 业务场景

    网络延迟导致数据流时间错乱,晚到数据无法正常统计,指标失真

  • 核心代码

python 复制代码
from pyspark.sql.functions import col,window

# 读取流数据
stream_df = spark.readStream.format("kafka").load()
data_df = stream_df.select(from_json(col("value").cast("string"),schema).alias("data")).select("data.*")

# 设置水印:允许10秒内晚到数据
water_df = data_df.withWatermark("event_time", "10 seconds")

# 5分钟滚动窗口统计
window_df = water_df.groupBy(window(col("event_time"),"5 minute"),col("event_type")).count()

逐点讲解

withWatermark(时间字段, 延迟时长) 定义容忍乱序范围

超出容忍时间的数据直接丢弃,避免无限堆积状态

窗口聚合结合水印,保证实时指标准确且释放内存

流处理统计 PV、UV、交易指标必备写法

  • 实战注意

    水印字段必须是窗口分组依赖的时间字段

    延迟时长根据业务网络波动合理设置

  • 配套调参

python 复制代码
# 优化流任务状态过期清理
spark.conf.set("spark.sql.streaming.stateTTL.cleanupDelay","30s")

四、算法

反转字符串

python 复制代码
def reverseString(s):
    left, right = 0, len(s)-1
    while left < right:
        s[left], s[right] = s[right], s[left]
        left += 1
        right -= 1

思路讲解

双指针头尾交换元素,原地反转不额外开辟空间

时间效率高,数据清洗字段翻转、日志倒序解析常用

无额外内存开销,大数据批量处理友好

相关推荐
宸津-代码粉碎机4 分钟前
Spring AI企业级实战|智能记忆摘要+自动遗忘机制落地,彻底解决上下文爆炸与Token冗余
java·大数据·人工智能·后端·python·spring
dtq04244 分钟前
C语言刷题函数1-判断素数(分支语句,函数两种方法)
c语言·开发语言·学习
syc78901236 分钟前
Vibe Coding实战对比:终端迭代与可视化AI IDE的真实开发差异
大数据·ide·人工智能
尘汐筠竹9 分钟前
Day1-2 学习笔记:在 AMD 云环境上部署 Gemma 4 大模型
笔记·学习·datawhale·amdev
Litluecat14 分钟前
配合多角色提示语4,学习AI漫剧(刚开始学)
人工智能·学习·计算机视觉
AOwhisky17 分钟前
学习自测与解析:Redis系列第一期与第二期核心知识点详解
运维·数据库·redis·学习·云计算
sa1002718 分钟前
api大数据
大数据
zhangrelay22 分钟前
个体智能大模型使用的主观数据复盘-节选-2026-
笔记·学习·课程设计
roman_日积跬步-终至千里22 分钟前
【AI Engineering】Loop Engineering初探:在不确定性中构造确定性的工程方法
大数据·人工智能
lunzi_082627 分钟前
【学习笔记】《Python编程 从入门到实践》第9章:类、继承、组合与面向对象编程
笔记·python·学习