大数据开发学习Day38

一、Linux

1. 查看 HDFS 目录层级及文件大小

bash 复制代码
hdfs dfs -du -h /user/hive/warehouse/dwd.db

-du -h 人性化单位展示 HDFS 目录占用空间

快速判断数仓分层表数据量大小,判断是否需要归档清理

日常数仓存储容量巡检必备

2. 筛选日志中指定时间段报错日志

bash 复制代码
grep '2026-05-21 10:' /opt/spark/logs/spark.log | grep -i error

先限定时间范围,再过滤错误信息

精准定位指定时段 Spark、YARN 任务报错

比全量检索效率高数十倍,排错最快用法

3. 后台运行 Python 脚本并输出日志

bash 复制代码
nohup python3 etl_task.py > task_run.log 2>&1 &

nohup 离线后台运行,断开终端不终止进程

task_run.log 正常日志写入文件

2>&1 错误日志同步写入日志文件

大数据离线 Python 清洗脚本通用启动方式

二、SQL

通用表结构

dwd_traffic_log 流量日志:user_id,net_type,visit_time,stay_time,dt

dwd_finance_trade 金融交易表:trade_id,user_id,trade_money,trade_type,trade_time

dwd_product_flow 商品流量表:goods_id,expose_num,click_num,sale_num,dt

1. 统计不同网络类型用户平均停留时长

sql 复制代码
SELECT
net_type,
ROUND(AVG(stay_time),2) avg_stay_time,
COUNT(DISTINCT user_id) user_cnt
FROM dwd_traffic_log
WHERE dt='2026-05-21'
GROUP BY net_type;

net_type 区分 4G、5G、WiFi、有线网络

AVG(stay_time) 计算用户页面平均停留时长

同时统计对应网络下活跃用户数

用途:移动端 APP 体验优化、流量场景分析

2. 金融统计用户单日最大单笔交易、累计交易金额

sql 复制代码
SELECT
user_id,
MAX(trade_money) max_single_money,
SUM(trade_money) total_trade_money
FROM dwd_finance_trade
WHERE dt='2026-05-21'
GROUP BY user_id;

MAX 取出单日单笔最高交易额

SUM 汇总用户全天交易总额

金融风控、用户资产评级、大额交易监控核心 SQL

可延伸用于识别异常大额转账用户

3. 计算商品点击率、转化率

sql 复制代码
SELECT
goods_id,
expose_num,
click_num,
sale_num,
ROUND(click_num/expose_num,4) click_rate,
ROUND(sale_num/click_num,4) convert_rate
FROM dwd_product_flow
WHERE dt='2026-05-21';

曝光量→点击量→成交量三层漏斗

点击率 = 点击数 / 曝光数

转化率 = 成交量 / 点击数

电商运营商品爆款筛选、投放效果核心指标

三、Pyspark

今日重点:PySpark Structured Streaming 实时流读取 Kafka 完整实战

  • 业务场景
    实时消费用户行为、订单、设备上报数据流,做实时统计、实时预警
  • 核心依赖
    提交任务必须携带 Kafka 连接依赖包
  • 完整可运行代码
python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json,col
from pyspark.sql.types import StringType,StructType,StructField

# 1. 初始化Spark会话,开启流处理+依赖
spark = SparkSession.builder \
.appName("KafkaStreamRead") \
.getOrCreate()

# 2. 读取Kafka实时数据流
kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers","192.168.1.100:9092") \
.option("subscribe","user_behavior_topic") \
.option("startingOffsets","latest") \
.load()

# 3. 定义JSON数据结构
schema = StructType([
    StructField("user_id",StringType()),
    StructField("event_type",StringType()),
    StructField("event_time",StringType())
])

# 4. 解析Kafka JSON数据
stream_df = kafka_df.select(from_json(col("value").cast("string"),schema).alias("data")) \
.select("data.*")

# 5. 控制台输出测试
query = stream_df.writeStream \
.outputMode("append") \
.format("console") \
.start()

query.awaitTermination()

format("kafka") 指定数据源为 Kafka 流

subscribe 订阅指定主题,支持多个主题逗号分隔

startingOffsets latest 读取最新数据,earliest 从头读取历史数据

Kafka 原始数据为二进制,必须转为 string 再解析 JSON

from_json 按照预定义结构拆分字段

append 追加模式,只输出新增数据,流处理最常用输出模式
生产实战要点

线上禁止console输出,写入 ClickHouse/Hive/Kafka

流处理必须设置水印处理乱序数据

实时任务开启checkpoint断点续跑,防止丢数

python 复制代码
.option("checkpointLocation","/hdfs/checkpoint/stream_task")

三种输出模式:append、complete、update 适用场景

Kafka 流消费丢数、重复消费解决方案

实时任务断点续传原理

四、算法

合并两个有序数组

python 复制代码
def merge(nums1, m, nums2, n):
    i,j,k = m-1,n-1,m+n-1
    while i>=0 and j>=0:
        if nums1[i] > nums2[j]:
            nums1[k] = nums1[i]
            i -= 1
        else:
            nums1[k] = nums2[j]
            j -= 1
        k -= 1
    nums1[:j+1] = nums2[:j+1]

思路精讲

倒序双指针合并,避免数组元素覆盖

从两个数组末尾开始比较取值放入末尾

剩余元素直接批量填充
大数据用途

离线分片有序数据合并

日志有序时间数据合并排序

数据分区有序重组高频思想

相关推荐
黎阳之光6 小时前
黎阳之光:视频孪生重构新能源智慧工地,打造大型风光基地数智化建设标杆
大数据·人工智能·物联网·安全·数字孪生
-To be number.wan6 小时前
计算机组成原理 | 原码一位乘法运算方法
学习·计算机组成原理
前端若水7 小时前
从零开始学习AI Agent的实战路线图
人工智能·学习
JZC_xiaozhong7 小时前
研发体系集成架构:打通OA与PLM的核心参考
大数据·架构·流程自动化·数据集成与应用集成
wb043072017 小时前
氛围编程的冷思考:当“感觉“遇上“规范“——为何 Vibe Coding 并非企业级开发的万能药
大数据·人工智能
魔法阵维护师7 小时前
从零开发游戏需要学习的c#模块,第十一章(rpg小游戏入门,上篇,地图与移动)
学习·游戏·c#
qq_525513757 小时前
# 第七章 指令微调学习(四) 7.6基于指令数据对大语言模型进行微调
深度学习·学习·语言模型
Harm灬小海8 小时前
【云计算学习之路】学习Centos7系统-ROOT密码重置方法
linux·运维·服务器·学习·云计算
2401_868534788 小时前
论网络的安全设计
大数据