大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
qq_4232339029 分钟前
Python深度学习入门:TensorFlow 2.0/Keras实战
jvm·数据库·python
林深现海44 分钟前
【刘二大人】PyTorch深度学习实践笔记 —— 第四集:反向传播(凝练版)
pytorch·python·numpy
菩提树下的凡夫1 小时前
Python 环境管理工具
开发语言·python
珠海西格1 小时前
1MW光伏项目“四可”装置改造:逆变器兼容性评估方法详解
大数据·运维·服务器·云计算·能源
索荣荣1 小时前
JavaToken实战指南:从原理到应用
开发语言·python
Albert Edison1 小时前
【Python】函数
java·linux·python·pip
2401_836563181 小时前
用Python读取和处理NASA公开API数据
jvm·数据库·python
迎仔2 小时前
13-云原生大数据架构介绍:大数据世界的“弹性城市”
大数据·云原生·架构
产品人卫朋2 小时前
卫朋:IPD流程落地 - 市场地图拆解篇
大数据·人工智能·物联网
AAD555888992 小时前
基于Faster RCNN的暴力行为检测模型优化与实现_1
python