Spark练习-统计不同性别的年龄总和,统计不同性别不同年龄的年龄平均值

目录

统计不同性别的年龄总和,最大值,最小值,平均值

计算不同性别不同年龄的年龄平均值


统计不同性别的年龄总和,最大值,最小值,平均值

python 复制代码
from pyspark import  SparkContext
sc = SparkContext()


# 1- 读取hdfs中的学生数据
rdd = sc.textFile('hdfs://node1:8020/data/student.txt')

# 2- 使用转化算子进行数据处理
# map中的lambda表达式,必须定义一个参数,用来接收rdd中的元素数据, 注意:x参数如何处理,要看x接收的数据类型
rdd2 = rdd.map(lambda x:x.split(','))

# 将转换后的kv进行分组,把分组的字段作为key值
rdd3 = rdd2.map(lambda x:(x[2],x))
# 使用groupbykey方法,按照key进行分组

rdd4 = rdd3.groupByKey()  # ('F', <pyspark.resultiterable.ResultIterable object at 0x7f7fea109760>)
# 需要使用mapvalue转化分组后的数据
rdd5 = rdd4.mapValues(lambda x:list(x))


## todo 统计不同性别的年龄总和 最大值 最小值 平均值
# 将需要计算的数据转为kv结构   分组的字段是key值  聚合数据是value值
rdd6 = rdd2.map(lambda x:(x[2],int(x[3])))

# 使用reduceBykey方式进行聚合计算  会将相同key值的数据先合并,然后在聚合计算
# 聚合计算的算子,lambda x,y 需要结构两个参数
# 计算总和
rdd7 = rdd6.reduceByKey(lambda x,y:x+y)  # 使用有局限性,无法进行平均数  最大值 最小值 数量  总数/数量

# 计算平均值
rdd8 = rdd6.groupByKey().mapValues(lambda x:sum(list(x)) / len(list(x)))

# 计算最大值
rdd9 = rdd6.groupByKey().mapValues(lambda x:max(list(x)))

# 计算最小值
rdd10 = rdd6.groupByKey().mapValues(lambda x:min(list(x)))


# 查看数据


res6 = rdd6.collect()
print(res6)

res7 = rdd7.collect()
print(res7)

res8 = rdd8.collect()
print(res8)

res9 = rdd9.collect()
print(res9)

res10 = rdd10.collect()
print(res10)

计算不同性别不同年龄的年龄平均值

python 复制代码
from pyspark import SparkContext
sc = SparkContext()

# 1-读取文件数据
rdd = sc.textFile('hdfs://node1:8020/data/students.txt')

# 2-切割每行数据
rdd_line = rdd.map(lambda x:x.split(','))



#  计算不同性别不同年级的年龄平均值
# 方式一  (x[2],x[4])
rdd_kv2 = rdd_line.map(lambda x : ((x[2],x[4]),int(x[3])))
rdd_res2 = rdd_kv2.groupByKey().mapValues(lambda x : sum(list(x)) / len(list(x)))


# 方式二  x[2]+x[4]
rdd_kv3 = rdd_line.map(lambda x : (x[2]+x[4],int(x[3])))
rdd_res3 = rdd_kv2.groupByKey().mapValues(lambda x : sum(list(x)) / len(list(x)))




# 3-查看数据

res3 = rdd_kv2.collect()
print(res3)
res4 = rdd_res2.collect()
print(res4)

res6 = rdd_res3.collect()
print(res6)
res7 = rdd_res3.collect()
print(res7)

虽然两种map不同,但是结果相同

相关推荐
Gofarlic_oms17 小时前
Windchill用户登录与模块访问失败问题排查与许可证诊断
大数据·运维·网络·数据库·人工智能
Zoey的笔记本8 小时前
2026告别僵化工作流:支持自定义字段的看板工具选型与部署指南
大数据·前端·数据库
lingling0099 小时前
2026 年 BI 发展新趋势:AI 功能如何让数据分析工具 “思考” 和 “对话”?
大数据·人工智能·数据分析
鹧鸪云光伏9 小时前
光伏项目多,如何高效管理?
大数据·人工智能·光伏
Acrel187021067069 小时前
浅谈电气防火限流保护器设计在消防安全中的应用价值
大数据·网络
赵谨言9 小时前
Python串口的三相交流电机控制系统研究
大数据·开发语言·经验分享·python
汇智信科10 小时前
智慧矿山 & 工业大数据创新解决方案 —— 智能能源管理系统
大数据·能源·智慧矿山·工业大数据·汇智信科·智能能源管理系统·多元维度
企业对冲系统官10 小时前
基差风险管理系统日志分析功能的架构与实现
大数据·网络·数据库·算法·github·动态规划
忍冬行者11 小时前
Elasticsearch 超大日志流量集群搭建(网关 + 独立 Master + 独立 Data 纯生产架构,角色完全分离,百万级日志吞吐)
大数据·elasticsearch·云原生·架构·云计算
阿坤带你走近大数据11 小时前
如何解决农业数据的碎片化问题
大数据·人工智能·rag·大模型应用