PySpark学习笔记3-案例练习

搜索引擎日志分析

需求1 用户搜索关键词分析

需求2 用户和关键词组合分析

需求3 热门搜索时间段分析

首先对于数据可以用jieba库进行分词处理

python 复制代码
from pyspark import SparkConf,SparkContext
from defs import context_jieba,filter_words,append_words
from oprator import add
from pyspark.storagelevel import storagelevel

if __name__ == '__main__':
conf = SparkConf().setAppName('sougou').setMaster("local[*]")
#读取文件
sc = SparkContext('../sougou.txt')
split_rdd = file_rdd.map(lambda line:line.split('\t'))
#送入缓存
split_rdd.persist(StorageLevel.DISK_ONLY)
#需求1
context_rdd = split_rdd.map(lambda x : x[2])
# 对取出来的第二列搜索内容做分词操作
word_rdd = context_rdd.flatMap(context_jieba)
filter_rdd = word_rdd.filter(filter_words)
final_words_rdd = filter_rdd.amp(append_words)
#统计关键词的个数
result1 = final_words_rdd.reduceByKey(lambda a,b: a + b).sortBy(lambda x : x[1],ascending=False,numPartitions=1).take(5)
print('需求一结果',result1)
#需求2
user_content_rdd = split_rdd.map(lambda x:(x[1],x[2]))
user_word_rdd = uder_content_tdd.flatMap(extract_user_and_word)
user_word_with_one_rddd = user_word_rdd.map(lambda x:(x:1))
result2 = user_word_with_one_rddd.reduceByKey(lambda a,b:a+b).sortBy(lambda x:x[1],ascending=False,numpPartitions=1).take(5)
print(result2)
#需求3
time_rdd = split_rdd.map(lambda x:x[0])
hour_with_one_rdd  = time_rdd.map(lambda x:(x.split(":")[0],1))
result3 = hpour_with_one_rdd.reduceByKey(add).sortBy(lambda x:x[1],ascending=False,numPartitions=1).collect()
print(result3)

将代码提交到集群中运行

powershell 复制代码
/spark/bin/spark-submit --master yarn --py-files def.py /root/main.py
相关推荐
colus_SEU9 分钟前
【编译原理笔记】5.2 SDT Schemes
笔记·编译原理
Radan小哥44 分钟前
Docker学习笔记—day011
笔记·学习·docker
星域智链1 小时前
AI加持日常小节日:让每一份心意都精准升温✨
人工智能·科技·学习·生活·节日
xiaoxiaoxiaolll1 小时前
《Light: Science & Applications》基于拓扑能量转移网络的UCNPs,实现65nm超分辨成像与10倍功耗降低
学习
可可苏饼干1 小时前
Ruo-Yi 前后端分离
运维·学习
许长安1 小时前
C++ 多态详解:从静态多态到动态多态
开发语言·c++·经验分享·笔记
雾蓝回针1 小时前
[全网首发]解决Parallels Desktop运行“第五人格“时 使用涂鸦/快捷发言会导致视角偏移的问题
笔记·macos
狐572 小时前
2025-12-04-牛客刷题笔记-25_12-4-质数统计
笔记·算法
齐生12 小时前
iOS 知识点 - 一篇文章弄清「输入事件系统」(【事件传递机制、响应链机制】以及相关知识点)
笔记·面试
Slaughter信仰2 小时前
图解大模型_生成式AI原理与实战学习笔记(前三章综合问答)
人工智能·笔记·学习