大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
中科天工6 分钟前
如何选择适合的自动化包装解决方案?
大数据·人工智能·智能
xj7573065337 分钟前
《python web开发 测试驱动方法》
开发语言·前端·python
叫我:松哥17 分钟前
基于Flask框架开发的智能旅游推荐平台,采用复合推荐算法,支持管理员、导游、普通用户三种角色
python·自然语言处理·flask·旅游·数据可视化·推荐算法·关联规则
No0d1es25 分钟前
2025年12月 GESP CCF编程能力等级认证Python四级真题
开发语言·python·青少年编程·等级考试·gesp·ccf
love530love26 分钟前
EPGF 新手教程 13在 PyCharm(中文版 GUI)中创建 Hatch 项目环境,并把 Hatch 做成“项目自包含”(工具本地化为必做环节)
开发语言·ide·人工智能·windows·python·pycharm·hatch
song1502653729835 分钟前
PLC电气控制柜 开发上位机软件
大数据
老胡全房源系统37 分钟前
房产中介管理系统哪一款适合中介?
大数据·人工智能
效率客栈老秦40 分钟前
Python Trae提示词开发实战(2):2026 最新 10个自动化批处理场景 + 完整代码
人工智能·python·ai·prompt·trae
IT 行者1 小时前
告别硬编码!Spring Boot 优雅实现 Controller 路径前缀统一管理
数据库·spring boot·python
No0d1es1 小时前
2025年12月 GESP CCF编程能力等级认证Python五级真题
开发语言·python·青少年编程·等级考试·gesp·ccf