大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
todoitbo31 分钟前
从大数据角度看时序数据库选型:Apache IoTDB的实战经验分享
大数据·apache·时序数据库·iotdb
闲人编程36 分钟前
构建一个短链接生成器服务(FastAPI + SQLite)
jvm·python·sqlite·fastapi·生成器·短链接·caodecapsule
大数据CLUB1 小时前
酒店预订数据分析及预测可视化
大数据·hadoop·分布式·数据挖掘·数据分析·spark·mapreduce
杰瑞哥哥1 小时前
标准 Python 项目结构
开发语言·python
西部森林牧歌1 小时前
Arbess零基础学习 - 使用Arbess+GitLab实现Python项目构建/主机部署
python·ci/cd·gitlab·tiklab devops
Jay_Franklin2 小时前
Python中使用sqlite3模块和panel完成SQLite数据库中PDF的写入和读取
数据库·笔记·python·pycharm·sqlite·pdf·py
热爱编程的小白白2 小时前
【Playwright自动化】安装和使用
开发语言·python
听风吟丶2 小时前
Java NIO 深度解析:从 BIO 到 NIO 的演进与实战
开发语言·python
yuxb732 小时前
Python基础(一)
笔记·python
QiZhang | UESTC2 小时前
JAVA算法练习题day67
java·python·学习·算法·leetcode