【spark】远程debug spark任务(含有pyspark)

--master yarn--master client都是可以的。

shell 复制代码
spark-submit \
--master yarn \
--deploy-mode client \
--name "test-remote-debug" \
--conf "spark.driver.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5005" \
--conf "spark.executor.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=*:5006" \
/home/user/test.py

idea中如下配置,当然需要配置两个debug任务并同时启动。

运行spark-submit后再在idea中debug即可。

相关推荐
鼠鼠我捏,要死了捏1 天前
Spark Shuffle性能优化实践指南:提升大数据处理效率
性能优化·spark·shuffle
Dragon online2 天前
数据仓库深度探索系列:架构选择与体系构建
大数据·数据仓库·分布式·架构·spark·大数据架构·数仓架构
qinbaby2 天前
pyspark使用
spark
不辉放弃3 天前
Spark的累加器(Accumulator)
大数据·数据库·spark
梦想养猫开书店3 天前
36、spark-measure 源码修改用于数据质量监控
大数据·分布式·spark
码界筑梦坊4 天前
91-基于Spark的空气质量数据分析可视化系统
大数据·python·数据分析·spark·django·numpy·pandas
linweidong4 天前
深入剖析 Spark Shuffle 机制:从原理到实战优化
大数据·分布式·spark·spark sql·数据开发·shuffle·数据倾斜
道一云黑板报4 天前
Spark初探:揭秘速度优势与生态融合实践
大数据·分布式·spark·流式处理
WJ.Polar5 天前
Python与Spark
大数据·分布式·spark
喻师傅5 天前
Spark SQL 数组函数合集:array_agg、array_contains、array_sort…详解
大数据·hadoop·分布式·sql·spark