大数据开发学习Day38

一、Linux

1. 查看 HDFS 目录层级及文件大小

bash 复制代码
hdfs dfs -du -h /user/hive/warehouse/dwd.db

-du -h 人性化单位展示 HDFS 目录占用空间

快速判断数仓分层表数据量大小,判断是否需要归档清理

日常数仓存储容量巡检必备

2. 筛选日志中指定时间段报错日志

bash 复制代码
grep '2026-05-21 10:' /opt/spark/logs/spark.log | grep -i error

先限定时间范围,再过滤错误信息

精准定位指定时段 Spark、YARN 任务报错

比全量检索效率高数十倍,排错最快用法

3. 后台运行 Python 脚本并输出日志

bash 复制代码
nohup python3 etl_task.py > task_run.log 2>&1 &

nohup 离线后台运行,断开终端不终止进程

task_run.log 正常日志写入文件

2>&1 错误日志同步写入日志文件

大数据离线 Python 清洗脚本通用启动方式

二、SQL

通用表结构

dwd_traffic_log 流量日志:user_id,net_type,visit_time,stay_time,dt

dwd_finance_trade 金融交易表:trade_id,user_id,trade_money,trade_type,trade_time

dwd_product_flow 商品流量表:goods_id,expose_num,click_num,sale_num,dt

1. 统计不同网络类型用户平均停留时长

sql 复制代码
SELECT
net_type,
ROUND(AVG(stay_time),2) avg_stay_time,
COUNT(DISTINCT user_id) user_cnt
FROM dwd_traffic_log
WHERE dt='2026-05-21'
GROUP BY net_type;

net_type 区分 4G、5G、WiFi、有线网络

AVG(stay_time) 计算用户页面平均停留时长

同时统计对应网络下活跃用户数

用途:移动端 APP 体验优化、流量场景分析

2. 金融统计用户单日最大单笔交易、累计交易金额

sql 复制代码
SELECT
user_id,
MAX(trade_money) max_single_money,
SUM(trade_money) total_trade_money
FROM dwd_finance_trade
WHERE dt='2026-05-21'
GROUP BY user_id;

MAX 取出单日单笔最高交易额

SUM 汇总用户全天交易总额

金融风控、用户资产评级、大额交易监控核心 SQL

可延伸用于识别异常大额转账用户

3. 计算商品点击率、转化率

sql 复制代码
SELECT
goods_id,
expose_num,
click_num,
sale_num,
ROUND(click_num/expose_num,4) click_rate,
ROUND(sale_num/click_num,4) convert_rate
FROM dwd_product_flow
WHERE dt='2026-05-21';

曝光量→点击量→成交量三层漏斗

点击率 = 点击数 / 曝光数

转化率 = 成交量 / 点击数

电商运营商品爆款筛选、投放效果核心指标

三、Pyspark

今日重点:PySpark Structured Streaming 实时流读取 Kafka 完整实战

  • 业务场景
    实时消费用户行为、订单、设备上报数据流,做实时统计、实时预警
  • 核心依赖
    提交任务必须携带 Kafka 连接依赖包
  • 完整可运行代码
python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json,col
from pyspark.sql.types import StringType,StructType,StructField

# 1. 初始化Spark会话,开启流处理+依赖
spark = SparkSession.builder \
.appName("KafkaStreamRead") \
.getOrCreate()

# 2. 读取Kafka实时数据流
kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers","192.168.1.100:9092") \
.option("subscribe","user_behavior_topic") \
.option("startingOffsets","latest") \
.load()

# 3. 定义JSON数据结构
schema = StructType([
    StructField("user_id",StringType()),
    StructField("event_type",StringType()),
    StructField("event_time",StringType())
])

# 4. 解析Kafka JSON数据
stream_df = kafka_df.select(from_json(col("value").cast("string"),schema).alias("data")) \
.select("data.*")

# 5. 控制台输出测试
query = stream_df.writeStream \
.outputMode("append") \
.format("console") \
.start()

query.awaitTermination()

format("kafka") 指定数据源为 Kafka 流

subscribe 订阅指定主题,支持多个主题逗号分隔

startingOffsets latest 读取最新数据,earliest 从头读取历史数据

Kafka 原始数据为二进制,必须转为 string 再解析 JSON

from_json 按照预定义结构拆分字段

append 追加模式,只输出新增数据,流处理最常用输出模式
生产实战要点

线上禁止console输出,写入 ClickHouse/Hive/Kafka

流处理必须设置水印处理乱序数据

实时任务开启checkpoint断点续跑,防止丢数

python 复制代码
.option("checkpointLocation","/hdfs/checkpoint/stream_task")

三种输出模式:append、complete、update 适用场景

Kafka 流消费丢数、重复消费解决方案

实时任务断点续传原理

四、算法

合并两个有序数组

python 复制代码
def merge(nums1, m, nums2, n):
    i,j,k = m-1,n-1,m+n-1
    while i>=0 and j>=0:
        if nums1[i] > nums2[j]:
            nums1[k] = nums1[i]
            i -= 1
        else:
            nums1[k] = nums2[j]
            j -= 1
        k -= 1
    nums1[:j+1] = nums2[:j+1]

思路精讲

倒序双指针合并,避免数组元素覆盖

从两个数组末尾开始比较取值放入末尾

剩余元素直接批量填充
大数据用途

离线分片有序数据合并

日志有序时间数据合并排序

数据分区有序重组高频思想

相关推荐
SelectDB13 小时前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
ApacheSeaTunnel16 小时前
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?
大数据·开源·数据集成·seatunnel·技术分享·数据同步
大大大大晴天4 天前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰7774 天前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天4 天前
Hudi技术内幕:Metadata Table原理与实践
大数据
大大大大晴天5 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术5 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB6 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天9 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB10 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生