SparkML

SparkML

SparkML_lr_train :读取py处理后的train表用于训练,将训练模型保存好。

SparkML_lr_predict :读取训练好的模型,读取py处理后的test表用于预测。将预测结果写入normal_data中,根据id修改stream_is_normal的值。

提交spark任务

javascript 复制代码
bin/spark-submit \
--class SparkML_lr_train \
--master yarn \
--deploy-mode cluster \
./SparkML_lr_train1.jar \
10


bin/spark-submit \
--class SparkML_lr_train \
--master yarn \
--deploy-mode client \
./SparkML_lr_train4.jar \
10


bin/spark-submit \
--class SparkML_lr_predict \
--master yarn \
--deploy-mode client \
./SparkML_lr_predict.jar \
10


bin/spark-submit \
--class lr_train\
--master yarn \
--deploy-mode client \
./lr_train.jar \
10


bin/spark-submit \
--class lr_predict\
--master yarn \
--deploy-mode client \
./lr_predict.jar \
10

启动hadoop(启动脚本)

hdp.sh start

启动spark(命令行启动)

sbin/start-all.sh

bin/spark-submit

--class SparkSQL_lr_train

--master yarn

--deploy-mode client

./SparkSQL_lr_train.jar

10

bin/spark-submit

--class lr_train

--master yarn

--deploy-mode client

./lr_train.jar

10

相关推荐
Thomas214319 天前
sparkml pipeline 使用案例
spark-ml
Thomas214319 天前
sparkml 多列共享labelEncoder pipeline方案
spark-ml
Thomas214320 天前
sparkml 多列共享labelEncoder
javascript·ajax·spark-ml
悟乙己1 个月前
在 PySpark ML 中LightGBM比XGBoost更好(二)
spark-ml
Lenskit1 个月前
使用pyspark对上百亿行的hive表生成稀疏向量
python·spark-ml·spark
程序猿阿伟4 个月前
《深度探秘:Java构建Spark MLlib与TensorFlow Serving混合推理流水线》
java·spark-ml·tensorflow
武子康4 个月前
大数据-276 Spark MLib - 基础介绍 机器学习算法 Bagging和Boosting区别 GBDT梯度提升树
大数据·人工智能·算法·机器学习·语言模型·spark-ml·boosting
武子康4 个月前
大数据-277 Spark MLib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现
大数据·人工智能·算法·机器学习·ai·spark-ml·boosting
武子康4 个月前
大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting
大数据·算法·机器学习·ai·语言模型·spark-ml·集成学习
武子康4 个月前
大数据-274 Spark MLib - 基础介绍 机器学习算法 剪枝 后剪枝 ID3 C4.5 CART
大数据·人工智能·算法·机器学习·语言模型·spark-ml·剪枝