conda打包环境上传spark集群

当本地训练的python环境与 Spark 集群其他节点环境不一致时，核心解决方案是：将本地 Python 虚拟环境打包为压缩包，通过 Spark 的--archives参数分发到所有 Executor 节点，强制所有节点使用统一的环境（Python 解释器 + 依赖包）

以下是具体实现步骤，支持conda和virtualenv两种虚拟环境（覆盖绝大多数本地训练场景），且无需 root 权限、不影响集群原有环境。

一、核心原理

环境打包：将本地虚拟环境（含 Python 解释器、所有依赖包如scikit-learn、pyarrow、自定义类脚本）压缩为归档文件（.zip或.tar.gz）。

Spark 分发：通过spark-submit的--archives参数，让 Spark 自动将压缩包分发到所有 Executor 节点的工作目录。

指定解释器：通过--conf spark.pyspark.python和--conf spark.pyspark.driver.python，强制 Driver 和 Executor 使用打包环境中的 Python 解释器，而非集群默认 Python。

1、激活本地 conda 环境，确认依赖完整，打包 conda 环境为压缩包

bash 复制代码

# 激活本地conda环境
conda activate sklearn-spark-env

# 打包本地conda环境（替换为你的环境路径，可通过conda env list查看）
conda pack -n sklearn-spark-env -o sklearn-spark-env.tar.gz --ignore-missing-files

-n sklearn-spark-env：指定要打包的 conda 环境名；

-o sklearn-spark-env.tar.gz：输出压缩包名称；

--ignore-missing-files：忽略部分系统依赖（集群通常已包含），减小包体积。

2、通过 Spark 提交任务，分发环境并运行

bash 复制代码

spark-submit \
  --master yarn \  # 集群模式（yarn/local[*]等，根据你的集群类型调整）
  --deploy-mode cluster \  # 部署模式（cluster/client，推荐cluster）
  --archives /data/sklearn-spark-env.tar.gz#env \  # 分发环境压缩包，解压后命名为env（关键） #env要写上 表示解压后的环境名称
  --conf spark.pyspark.python=./env/bin/python \  # Executor使用解压后的Python解释器
  --conf spark.pyspark.driver.python=./env/bin/python \  # Driver使用解压后的Python解释器（cluster模式生效）
  --conf spark.executorEnv.PYTHONPATH=./env/lib/python3.11/site-packages \  # 指定Python包路径
  --py-files /data/my_transformers.py \  # 额外分发自定义脚本（若未打包进环境）
  /data/your_prediction_script.py  # 你的预测脚本