大数据Spark范式

文章目录

大数据Spark范式

python 复制代码
from pyspark.sql import SparkSession
import json


def filter_debate(x):
    data = json.loads(x)
    return data["subject"]


if __name__ == '__main__':
    spark = SparkSession.builder.appName("NonDebateFilter").getOrCreate()
    sc = spark.sparkContext

    # 假设${DATA_ID:12455}是一个环境变量或需要替换的具体路径前缀
    input_path = "${DATA_ID:00001}:Auser/data_en/*"
    rdd = sc.textFile(input_path)
    filtered_rdd = rdd.map(debate)

    # 取消注释以保存所有过滤后的记录,而不是只取前100条
    output_path = "${DATA_ID:00001}:Auser/data_en/01"
    filtered_rdd.saveAsTextFile(output_path)

    # 如果确实只需要前100条记录进行打印或其它处理,可以在保存后单独处理
    # for i in filtered_rdd.take(100):
    #     print(i)

    sc.stop()
相关推荐
lbb 小魔仙5 分钟前
DolphinDB:以“存算一体“重新定义工业时序数据的边界
开发语言·人工智能·python·langchain·jenkins
IT策士9 分钟前
Python Word操作:从入门到精通
python·c#·word
techdashen12 分钟前
Cloudflare Agents Week 2026 总结:20 项发布,一张 Cloud 2.0 的完整地图
大数据·elasticsearch·搜索引擎
捉鸭子28 分钟前
QQ音乐sign vmp逆向
爬虫·python·网络安全·网络爬虫
冷小鱼30 分钟前
多线程编程深度解析:Java与Python框架实战指南
java·开发语言·python·多线程
Allen_LVyingbo38 分钟前
面向医疗群体智能的协同诊疗与群体决策支持系统(上)
数据结构·数据库·人工智能·git·python·动态规划
paperzz论文40 分钟前
从选题到见刊:Paperzz 期刊论文智能写作,如何让学术发表 “一键提速”?
大数据·人工智能·ai·论文·ai写作
极欧互联1 小时前
2026素材网站推荐排行 商用/自媒体/影视后期专用
大数据·人工智能·媒体
ROBOTGEEKER1 小时前
新能源汽车车门涂胶:越疆机器人,让密封精度与柔性生产双升级
大数据·机器人·制造