大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
X56619 分钟前
Go语言如何做Helm Chart_Go语言Helm打包部署教程【收藏】
jvm·数据库·python
szccyw011 分钟前
如何阻止 HTML 页面在 JavaScript 执行完成前渲染
jvm·数据库·python
forEverPlume12 分钟前
Go语言怎么做链路追踪_Go语言分布式链路追踪教程【精选】
jvm·数据库·python
abc123456sdggfd16 分钟前
golang如何操作Elasticsearch搜索引擎_golang操作Elasticsearch方法
jvm·数据库·python
盼小辉丶16 分钟前
PyTorch强化学习实战(6)——交叉熵方法详解与实现
人工智能·pytorch·python·强化学习
计算机毕业编程指导师16 分钟前
【计算机毕设选题推荐】基于Hadoop+Spark的诺贝尔奖可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·诺贝尔奖
ZhengEnCi19 分钟前
06-多头注意力机制 🎯
人工智能·pytorch·python
计算机毕业编程指导师19 分钟前
基于Spark的性格行为数据分析与可视化系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·python·数据挖掘·数据分析·spark·毕业设计·性格行为
tang7778930 分钟前
爬虫爬公开数据被封?实测有效!从原因排查到落地解决全指南
大数据·爬虫·python·网络爬虫·ip
大萌神Nagato37 分钟前
python 包管理器uv
开发语言·python·uv