大数据开发学习Day30

一、Linux

查看系统内核版本
统计当前目录下所有文件个数
后台运行并把日志输出到 run.log

bash 复制代码
uname -r
ls -l | grep -v ^d | wc -l
nohup python task.py > run.log 2>&1 &

uname -r :查看 Linux 内核版本,适配软件兼容性、集群环境核对
grep -v ^d 排除文件夹,只统计普通文件
nohup + 2>&1 标准错误重定向到日志,线上脚本部署标配写法
uname 命令
全称:Unix name
作用:打印系统信息
-r:显示内核 release 版本号(release)
-a:显示所有信息(内核名、主机名、内核版本、硬件架构等)
-s:内核名称(默认)
-m:硬件架构(如 x86_64)
-n:主机名
-v:内核版本号(verbose)

bash 复制代码
ls -l | grep -v ^d | wc -l

ls -l          → 列出详细信息
    ↓
grep -v ^d     → 过滤掉以 'd' 开头的行(即目录)
    ↓
wc -l          → 统计剩余行数
bash 复制代码
nohup python task.py > run.log 2>&1 &

nohup        → 忽略挂断信号
    ↓
python task.py → 执行脚本
    ↓
> run.log    → 标准输出重定向到文件
    ↓
2>&1        → 错误输出也指向标准输出
    ↓
&           → 放入后台执行

二、SQL

1581. 进店却未进行过交易的顾客

sql 复制代码
SELECT
    v.customer_id,
    COUNT(v.visit_id) AS count_no_trans
FROM Visits v
LEFT JOIN Transactions t
ON v.visit_id = t.visit_id
WHERE t.transaction_id IS NULL
GROUP BY v.customer_id;

左连接 + 右表为空 → 筛选有行为无转化用户

电商访客未下单、曝光未点击、流量流失人群通用模板

分组统计频次,数仓转化分析高频

1587. 银行账户概要 II

sql 复制代码
SELECT
    account_number,
    SUM(amount) AS balance
FROM Transactions
GROUP BY account_number
HAVING SUM(amount) > 10000;

GROUP BY + HAVING 聚合后过滤

账户流水累加、大额用户筛选、金融报表常用

1667. 修复表中的名字

sql 复制代码
SELECT
    user_id,
    CONCAT(
        UPPER(SUBSTRING(name,1,1)),
        LOWER(SUBSTRING(name,2))
    ) AS name
FROM Users
ORDER BY user_id;

SUBSTRING 截取字符串
UPPER/LOWER 大小写转换
CONCAT 拼接

数据清洗、字符串规范化标准写法

三、Pyspark

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, sum, concat, upper, lower, substring

spark = SparkSession.builder.master("local[*]").appName("Day30").getOrCreate()

# 1. 有到访无交易用户
visits = spark.createDataFrame([(1,101),(2,102)],["visit_id","customer_id"])
trans = spark.createDataFrame([(1,1,200)],["transaction_id","visit_id","amount"])

visits.join(trans, on="visit_id", how="left")\
      .filter(col("transaction_id").isNull())\
      .groupBy("customer_id").count().show()

# 2. 账户余额大于10000
acc = spark.createDataFrame([
    (1001,5000),(1001,6000),(1002,3000)
], ["account_number","amount"])

acc.groupBy("account_number")\
   .agg(sum("amount").alias("balance"))\
   .filter(col("balance") > 10000).show()

spark.stop()

Spark 左外连接空值过滤,和 SQL 逻辑完全对齐

分组聚合后 filter 筛选大额账户

字符串截取、大小写函数可实现名字格式化清洗

四、算法

88. 合并两个有序数组

python 复制代码
def merge(nums1, m, nums2, n):
    i, j, k = m-1, n-1, m+n-1
    while i >= 0 and j >= 0:
        if nums1[i] > nums2[j]:
            nums1[k] = nums1[i]
            i -= 1
        else:
            nums1[k] = nums2[j]
            j -= 1
        k -= 1
    while j >= 0:
        nums1[k] = nums2[j]
        j -= 1
        k -= 1

逆序双指针,不开新数组

原地合并,空间 O (1)

相关推荐
段一凡-华北理工大学19 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
喜欢踢足球的老罗19 小时前
从移动开发转型 AI Agent 工程师:我做了一个开源学习系统
人工智能·学习
狒狒热知识20 小时前
合规筑基专业赋能178软文网引领软文营销行业规范化发展
大数据
wuxinyan12320 小时前
工业级大模型学习之路030:Streamlit 企业级智能体前端工作台
前端·学习·streamlit·智能体
长安紫薯21 小时前
学习AI日记
学习
星恒随风21 小时前
C语言数据结构排序算法详解(下):冒泡排序、快速排序、归并排序和计数排序
c语言·数据结构·笔记·学习·排序算法
NagatoYukee21 小时前
Spring Security基础部分学习
java·学习·spring
ZGi.ai21 小时前
企业AI资产管理体系:提示词、工作流、知识库应该怎么管
大数据·知识库·工作流编排·ai资产·提示词管理
米小葱1 天前
【学习笔记】cmake
笔记·学习
爱分享的康康1 天前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能