大数据开发学习Day31

一、Linux

查看系统所有用户
给文件 app.log 设置只读权限
撤销只读权限,恢复可读写

bash 复制代码
cat /etc/passwd
chmod 444 app.log
chmod 664 app.log

/etc/passwd 存放系统所有用户信息,排查账号、运维安全必备
chmod 444 所有人只读,防止误删误改日志配置
chmod 664 属主属组可读写,其他只读,生产常用权限配置

二、SQL

1693. 每天的领导和合伙人

sql 复制代码
SELECT
    sale_date,
    COUNT(DISTINCT user_id) AS unique_leads,
    COUNT(DISTINCT partner_id) AS unique_partners
FROM DailySales
GROUP BY sale_date;

同一分组内多字段分别去重计数

COUNT(DISTINCT) 多维度指标统计标准写法

数仓日报多指标并行统计高频场景

1729. 求关注者的数量

sql 复制代码
SELECT
    user_id,
    COUNT(DISTINCT follower_id) AS followers_count
FROM Followers
GROUP BY user_id
ORDER BY user_id;

分组去重统计粉丝数

社交关系、关注 / 粉丝维度基础 SQL 模板

分组 + 排序常规面试基础题

1741. 查找每个员工花费的总时间

sql 复制代码
SELECT
    event_day AS day,
    emp_id,
    SUM(out_time - in_time) AS total_time
FROM Employees
GROUP BY event_day, emp_id;

三、Pyspark

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, countDistinct, sum

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Day31") \
    .getOrCreate()

# 1. 每日领导和合伙人数
sales = spark.createDataFrame([
    ("2025-05-01",101,201),
    ("2025-05-01",101,202)
], ["sale_date","user_id","partner_id"])

sales.groupBy("sale_date")\
     .agg(
         countDistinct("user_id").alias("unique_leads"),
         countDistinct("partner_id").alias("unique_partners")
     ).show()

# 2. 员工每日在岗总时长
emp = spark.createDataFrame([
    (1,"2025-05-01",60,120),
    (1,"2025-05-01",130,180)
], ["emp_id","event_day","in_time","out_time"])

emp.withColumn("duration", col("out_time") - col("in_time"))\
   .groupBy("event_day","emp_id")\
   .agg(sum("duration").alias("total_time"))\
   .show()

spark.stop()

Spark 多字段 countDistinct 并行统计多维度去重量

字段数值相减算单次时长,分组求和汇总

和 SQL 业务逻辑完全对齐,离线数仓日常开发写法

四、算法

136. 只出现一次的数字

python 复制代码
def singleNumber(nums):
    res = 0
    for x in nums:
        res ^= x
    return res

异或运算性质:相同数异或为 0,0 异或任何数不变

时间 O (n),空间 O (1) 最优解

相关推荐
大大大大晴天8 小时前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB1 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生
WhoAmI1 天前
MapReduce框架原理解析一:InputFormat
大数据·hadoop
WhoAmI1 天前
MapReduce框架原理解析三:OutputFormat
大数据·hadoop
WhoAmI1 天前
MapReduce框架原理解析二:Shuffle
大数据·hadoop
大大大大晴天2 天前
Hudi技术内幕:Key Generation原理与实践
大数据
得物技术5 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子5 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树886 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
通信小呆呆6 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人