大数据开发学习Day31

一、Linux

查看系统所有用户
给文件 app.log 设置只读权限
撤销只读权限,恢复可读写

bash 复制代码
cat /etc/passwd
chmod 444 app.log
chmod 664 app.log

/etc/passwd 存放系统所有用户信息,排查账号、运维安全必备
chmod 444 所有人只读,防止误删误改日志配置
chmod 664 属主属组可读写,其他只读,生产常用权限配置

二、SQL

1693. 每天的领导和合伙人

sql 复制代码
SELECT
    sale_date,
    COUNT(DISTINCT user_id) AS unique_leads,
    COUNT(DISTINCT partner_id) AS unique_partners
FROM DailySales
GROUP BY sale_date;

同一分组内多字段分别去重计数

COUNT(DISTINCT) 多维度指标统计标准写法

数仓日报多指标并行统计高频场景

1729. 求关注者的数量

sql 复制代码
SELECT
    user_id,
    COUNT(DISTINCT follower_id) AS followers_count
FROM Followers
GROUP BY user_id
ORDER BY user_id;

分组去重统计粉丝数

社交关系、关注 / 粉丝维度基础 SQL 模板

分组 + 排序常规面试基础题

1741. 查找每个员工花费的总时间

sql 复制代码
SELECT
    event_day AS day,
    emp_id,
    SUM(out_time - in_time) AS total_time
FROM Employees
GROUP BY event_day, emp_id;

三、Pyspark

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, countDistinct, sum

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Day31") \
    .getOrCreate()

# 1. 每日领导和合伙人数
sales = spark.createDataFrame([
    ("2025-05-01",101,201),
    ("2025-05-01",101,202)
], ["sale_date","user_id","partner_id"])

sales.groupBy("sale_date")\
     .agg(
         countDistinct("user_id").alias("unique_leads"),
         countDistinct("partner_id").alias("unique_partners")
     ).show()

# 2. 员工每日在岗总时长
emp = spark.createDataFrame([
    (1,"2025-05-01",60,120),
    (1,"2025-05-01",130,180)
], ["emp_id","event_day","in_time","out_time"])

emp.withColumn("duration", col("out_time") - col("in_time"))\
   .groupBy("event_day","emp_id")\
   .agg(sum("duration").alias("total_time"))\
   .show()

spark.stop()

Spark 多字段 countDistinct 并行统计多维度去重量

字段数值相减算单次时长,分组求和汇总

和 SQL 业务逻辑完全对齐,离线数仓日常开发写法

四、算法

136. 只出现一次的数字

python 复制代码
def singleNumber(nums):
    res = 0
    for x in nums:
        res ^= x
    return res

异或运算性质:相同数异或为 0,0 异或任何数不变

时间 O (n),空间 O (1) 最优解

相关推荐
闵孚龙2 小时前
Claude Code Plan Mode 计划模式全解析:先规划后执行、审批流、计划文件、Auto Mode、多 Agent 协同
大数据·人工智能
财迅通Ai2 小时前
利欧股份科技股权投资成效显著 构建硬科技布局新生态
大数据·人工智能·科技·利欧股份
-SOLO-2 小时前
Python 爬取小红书 文章标题和内容 仅供学习
android·python·学习
科技林总2 小时前
【系统分析师】14.6 测试策略与过程
学习
API快乐传递者2 小时前
深度解析得物详情接口 dewu.item_get_app:技术实现、实操落地与风控规避
大数据
黎阳之光2 小时前
黎阳之光:视频孪生硬核赋能,共启数字孪生水利监测新征程
大数据·人工智能·算法·安全·数字孪生
工业机器人销售服务2 小时前
告别漫长停机:伯朗特机器人如何用“自动换模”重塑生产效率
大数据·人工智能·算法
oort1232 小时前
OortCloud Super AI Agent 平台——企业级AI生产力与管理平台汇报
大数据·人工智能·用户运营
秦ぅ时3 小时前
OpenAI API 协议实战指南:参数、响应与兼容全攻略
大数据·人工智能