大数据开发学习Day46

一、Linux

1. 查看系统所有 CPU 核心使用率(排查 CPU 打满)

bash 复制代码
mpstat -P ALL 1 1

查看每一颗 CPU 核心使用率,精准判断是否 CPU 瓶颈

Spark/Flink 任务跑慢、集群卡顿第一排查命令

生产定位任务资源瓶颈必备

2. 批量替换目录下所有文件中的指定字符串

bash 复制代码
sed -i "s/old_str/new_str/g" /opt/etl/*.sh

批量替换脚本里的旧字符串 → 新字符串

用于批量更新配置、路径、账号信息

ETL 脚本批量维护神器

3. 查看 HDFS 存储容量、使用率、剩余空间

bash 复制代码
hdfs dfs -df -h

查看集群总容量、已用、可用空间

数仓日常巡检、磁盘预警、扩容评估必备

二、SQL

表结构

dwd_user_sign:用户签到表 user_id, sign_time, dt

dwd_order_refund:订单退款表 order_id, user_id, refund_amt, refund_time, dt

dwd_car_track:车联网轨迹表 car_id, speed, longitude, latitude, dt

1. 统计用户连续签到天数(面试高频)

sql 复制代码
SELECT
    user_id,
    MAX(continue_days) AS max_sign_days
FROM (
    SELECT
        user_id,
        COUNT(*) AS continue_days
    FROM (
        SELECT
            user_id,
            date_sub(sign_time, ROW_NUMBER()OVER(PARTITION BY user_id ORDER BY sign_time)) AS grp
        FROM dwd_user_sign
    ) t1
    GROUP BY user_id, grp
) t2
GROUP BY user_id;

连续行为经典分组算法

用于会员活跃度、奖励发放、用户留存

2. 统计每日退款金额、退款订单数、退款率

sql 复制代码
SELECT
    dt,
    COUNT(DISTINCT order_id) AS refund_cnt,
    SUM(refund_amt) AS refund_total,
    ROUND(SUM(refund_amt)/SUM(order_amt),4) AS refund_rate
FROM dwd_order_refund
GROUP BY dt;

交易健康度核心指标

电商 / 金融每日必看监控报表

3. 统计车辆最高速度、平均速度、行驶次数

sql 复制代码
SELECT
    car_id,
    MAX(speed) AS max_speed,
    ROUND(AVG(speed),2) AS avg_speed,
    COUNT(*) AS drive_times
FROM dwd_car_track
WHERE dt = '2026-05-27'
GROUP BY car_id;

物联网车联网标准统计 SQL

用于驾驶行为分析、车辆监控

三、Pyspark

今日重点:PySpark Shuffle 并行度调优(生产任务提速核心)

  • 为什么要调?
    默认并行度太低 → 任务跑超慢
    并行度太高 → 小文件爆炸、CPU 飙升
    正确设置 = 任务快 + 集群稳
  • 企业实战最优配置
python 复制代码
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ShuffleTuning") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.sql.shuffle.partitions", "24") \
    .config("spark.default.parallelism", "24") \
    .config("spark.executor.memory", "8g") \
    .config("spark.executor.cores", "4") \
    .getOrCreate()
  • 超详细讲解
    spark.sql.shuffle.partitions:Shuffle 并行度,默认 200,生产一般设 24~64
    spark.default.parallelism:RDD 并行度,和上面保持一致
    AQE 自适应:自动合并小文件、自动优化倾斜
    这是离线数仓项目标准配置,直接提升速度 2~5 倍
  • 生产最佳实践
    小表:10~20 个分区
    中表:20~40 个分区
    大表:40~80 个分区
    千万不要用默认 200,会产生大量小文件

四、算法

只出现一次的数字

python 复制代码
def singleNumber(nums):
    res = 0
    for num in nums:
        res ^= num
    return res

思路讲解

异或运算:相同为 0,不同为 1

遍历一遍即可找到唯一不重复数字

时间 O (n),空间 O (1),最优解
大数据用途

海量日志去重、唯一用户识别、异常行为检测

相关推荐
searchforAI1 小时前
网盘视频转文字后,如何高效做笔记并长期归档?
人工智能·笔记·学习·ai·音视频·语音识别·网盘
腾视科技AI1 小时前
企业调研——工业边缘计算隐形黑马,腾视科技以“硬件+算法”加速出海落地
大数据·人工智能·科技·ai·边缘计算·无人叉车·ainas
魔法阵维护师1 小时前
从零开发游戏需要学习的c#模块,第三十五章(打包发布 —— 让别人玩你的游戏)
学习·游戏·c#
kTR2hD1qb1 小时前
Keepalived 学习总结
java·服务器·学习
Volunteer Technology1 小时前
Flink的函数接口与富函数类
大数据·flink
数智工坊2 小时前
周志华《Machine Learning》学习笔记--第四章--决策树
笔记·学习·机器学习
书生的梦2 小时前
《神经网络与深度学习》学习笔记(三):Transformer 模型
深度学习·神经网络·学习
nashane2 小时前
HarmonyOS 6学习:深入解析CustomDialog嵌套弹窗中的this指向陷阱与解决方案
学习·华为·harmonyos
百万小涵2 小时前
从零接入大模型:通义千问、Ollama 与 OpenAI SDK 入门(RAG与Agent实战学习笔记①)
笔记·学习