大数据开发学习Day38

一、Linux

1. 查看 HDFS 目录层级及文件大小

bash 复制代码
hdfs dfs -du -h /user/hive/warehouse/dwd.db

-du -h 人性化单位展示 HDFS 目录占用空间

快速判断数仓分层表数据量大小,判断是否需要归档清理

日常数仓存储容量巡检必备

2. 筛选日志中指定时间段报错日志

bash 复制代码
grep '2026-05-21 10:' /opt/spark/logs/spark.log | grep -i error

先限定时间范围,再过滤错误信息

精准定位指定时段 Spark、YARN 任务报错

比全量检索效率高数十倍,排错最快用法

3. 后台运行 Python 脚本并输出日志

bash 复制代码
nohup python3 etl_task.py > task_run.log 2>&1 &

nohup 离线后台运行,断开终端不终止进程

task_run.log 正常日志写入文件

2>&1 错误日志同步写入日志文件

大数据离线 Python 清洗脚本通用启动方式

二、SQL

通用表结构

dwd_traffic_log 流量日志:user_id,net_type,visit_time,stay_time,dt

dwd_finance_trade 金融交易表:trade_id,user_id,trade_money,trade_type,trade_time

dwd_product_flow 商品流量表:goods_id,expose_num,click_num,sale_num,dt

1. 统计不同网络类型用户平均停留时长

sql 复制代码
SELECT
net_type,
ROUND(AVG(stay_time),2) avg_stay_time,
COUNT(DISTINCT user_id) user_cnt
FROM dwd_traffic_log
WHERE dt='2026-05-21'
GROUP BY net_type;

net_type 区分 4G、5G、WiFi、有线网络

AVG(stay_time) 计算用户页面平均停留时长

同时统计对应网络下活跃用户数

用途:移动端 APP 体验优化、流量场景分析

2. 金融统计用户单日最大单笔交易、累计交易金额

sql 复制代码
SELECT
user_id,
MAX(trade_money) max_single_money,
SUM(trade_money) total_trade_money
FROM dwd_finance_trade
WHERE dt='2026-05-21'
GROUP BY user_id;

MAX 取出单日单笔最高交易额

SUM 汇总用户全天交易总额

金融风控、用户资产评级、大额交易监控核心 SQL

可延伸用于识别异常大额转账用户

3. 计算商品点击率、转化率

sql 复制代码
SELECT
goods_id,
expose_num,
click_num,
sale_num,
ROUND(click_num/expose_num,4) click_rate,
ROUND(sale_num/click_num,4) convert_rate
FROM dwd_product_flow
WHERE dt='2026-05-21';

曝光量→点击量→成交量三层漏斗

点击率 = 点击数 / 曝光数

转化率 = 成交量 / 点击数

电商运营商品爆款筛选、投放效果核心指标

三、Pyspark

今日重点:PySpark Structured Streaming 实时流读取 Kafka 完整实战

  • 业务场景
    实时消费用户行为、订单、设备上报数据流,做实时统计、实时预警
  • 核心依赖
    提交任务必须携带 Kafka 连接依赖包
  • 完整可运行代码
python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json,col
from pyspark.sql.types import StringType,StructType,StructField

# 1. 初始化Spark会话,开启流处理+依赖
spark = SparkSession.builder \
.appName("KafkaStreamRead") \
.getOrCreate()

# 2. 读取Kafka实时数据流
kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers","192.168.1.100:9092") \
.option("subscribe","user_behavior_topic") \
.option("startingOffsets","latest") \
.load()

# 3. 定义JSON数据结构
schema = StructType([
    StructField("user_id",StringType()),
    StructField("event_type",StringType()),
    StructField("event_time",StringType())
])

# 4. 解析Kafka JSON数据
stream_df = kafka_df.select(from_json(col("value").cast("string"),schema).alias("data")) \
.select("data.*")

# 5. 控制台输出测试
query = stream_df.writeStream \
.outputMode("append") \
.format("console") \
.start()

query.awaitTermination()

format("kafka") 指定数据源为 Kafka 流

subscribe 订阅指定主题,支持多个主题逗号分隔

startingOffsets latest 读取最新数据,earliest 从头读取历史数据

Kafka 原始数据为二进制,必须转为 string 再解析 JSON

from_json 按照预定义结构拆分字段

append 追加模式,只输出新增数据,流处理最常用输出模式
生产实战要点

线上禁止console输出,写入 ClickHouse/Hive/Kafka

流处理必须设置水印处理乱序数据

实时任务开启checkpoint断点续跑,防止丢数

python 复制代码
.option("checkpointLocation","/hdfs/checkpoint/stream_task")

三种输出模式:append、complete、update 适用场景

Kafka 流消费丢数、重复消费解决方案

实时任务断点续传原理

四、算法

合并两个有序数组

python 复制代码
def merge(nums1, m, nums2, n):
    i,j,k = m-1,n-1,m+n-1
    while i>=0 and j>=0:
        if nums1[i] > nums2[j]:
            nums1[k] = nums1[i]
            i -= 1
        else:
            nums1[k] = nums2[j]
            j -= 1
        k -= 1
    nums1[:j+1] = nums2[:j+1]

思路精讲

倒序双指针合并,避免数组元素覆盖

从两个数组末尾开始比较取值放入末尾

剩余元素直接批量填充
大数据用途

离线分片有序数据合并

日志有序时间数据合并排序

数据分区有序重组高频思想

相关推荐
诗词在线7 小时前
求推荐飞花令
大数据·人工智能·python
湘美书院--湘美谈教育7 小时前
湘美谈教育AI系列经验集锦:赋能整理聊斋志异大寓言
大数据·人工智能·深度学习·神经网络·机器学习
jrjrgood7 小时前
现货黄金和黄金期货的区别有哪些?如何投资?
大数据·人工智能·区块链
sensen_kiss8 小时前
CPT304 SoftwareEngineeringII 软件工程 2 Pt.9 软件测试 (Software Testing)(下)
学习·软件工程
wu_ye_m8 小时前
学习c语言第35天 函数声明和定义
c语言·开发语言·学习
清辞8538 小时前
Coze从入门到实战---第一、二章
大数据·人工智能·学习·语言模型
伊布拉西莫9 小时前
【流畅的Python】第20章:并发执行器 — 学习笔记
笔记·python·学习
TomatoStudy9 小时前
IT职业教育AI落地与实训体系建设复盘——以职坐标模式为例
大数据·人工智能
Java 码思客9 小时前
【ElasticSearch从入门到架构师】第1章:ElasticSearch 核心认知与行业定位
大数据·elasticsearch·搜索引擎
jinglong.zha9 小时前
LScript-从零基础到商业变现的AI自动化学习平台
运维·学习·自动化