大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
方向研究31 分钟前
管仲治国
大数据
成长之路51440 分钟前
【实证分析】数据资产信息披露程度数据集-含原始数据及do代码(2007-2024年)
大数据
Elastic 中国社区官方博客1 小时前
Elasticsearch:在 X-mas 吃一些更健康的东西
android·大数据·数据库·人工智能·elasticsearch·搜索引擎·全文检索
消失的旧时光-19431 小时前
微服务的本质,其实是操作系统设计思想
java·大数据·微服务
智航GIS1 小时前
5.1 if语句基础
开发语言·python
华研前沿标杆游学2 小时前
2026年湖南省工业旅游线路
python
APIshop2 小时前
深入解析京东API接口:如何高效获取商品详情与SKU信息
python
94621931zyn62 小时前
备份恢复 - Cordova 与 OpenHarmony 混合开发实战
python
PNP Robotics2 小时前
PNP机器人受邀参加英业达具身智能活动
大数据·人工智能·python·学习·机器人
94621931zyn62 小时前
操作历史 - Cordova 与 OpenHarmony 混合开发实战
python