技术栈

网站每月访问量

howard2005
22 天前
spark rdd·网站每月访问量
3.8.5 利用RDD统计网站每月访问量本次实战通过 Spark RDD API 实现网站访问日志的月度流量统计。原始数据 websiteData.csv 包含逗号分隔的访问记录,其中第五列存储 yyyy-M-d H:m 格式的时间戳。核心处理流程包括:首先读取 CSV 文件生成 RDD,通过 split(",")(4) 提取时间字段,再经 split(" ")(0) 和 split("-") 两次分割获取年月日,最终拼接为 yyyy-M 格式的月份键。将每条记录映射为 (月份, 1) 键值对后,使用 reduceByKey(_ + _) 对相
howard2005
6 个月前
网站每月访问量·pyspark rdd
PySpark实战 - 1.5 利用RDD统计网站每月访问量
howard2005
1 年前
spark sql·网站每月访问量
4.8.5 利用Spark SQL统计网站每月访问量在本次实战中,我们通过Spark SQL完成了对网站每月访问量的统计任务。首先,将网站数据文件上传至HDFS,然后利用Spark读取数据并生成DataFrame。接着,通过SQL语句对日期字段进行处理,提取年月信息并添加计数列。之后,按年月分组计算每月访问量,并按访问量降序排列。整个过程涉及数据读取、字段处理、分组聚合和排序等操作,最终成功输出了每月访问量的结果。此任务不仅展示了Spark SQL的强大功能,还体现了数据处理的完整流程,为后续类似任务提供了参考。
我是有底线的