Spark基础

Spark基础

建库一定要指定字符集,错了好多次了

pip

卸载某个模块

pip uninstall pandas

-- 下载其它的改掉pandas即可
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

更新最新版本pip
python -m pip install --upgrade pip

1、 启动服务

Hadoop

启动全部服务
*****/hadoop/sbin/start-all.sh

启动hdfs
*****/hadoop/sbin/start-dfs.sh

启动yarn
*****/hadoop/sbin/start-yarn.sh

启动history日志服务
*****/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

Spark

同上,前面是你自己安装的路径

启动standalone资源调度服务
/spark/sbin/start-all.sh

启动master
/spark/sbin/start-master.sh

启动历史日志服务
/spark/sbin/start-history-server.sh

2、spark的(交互开发)指令参数

在通过指令运行时,就是进入交互模式,运行一个计算程序

该参数对spark指令都有效的

计算任务运行期间查询计算的任务信息可以访问4040端口

计算任务结束后查询计算的任务信息可以访问18080端口

pyspark --master yarn --name shaonianlu_conf --conf 'spark.sql.shuffle.partitions=100'

使用yarn进行资源调度,指定任务名为shaonianlu 更改配置信息

3、dirver和excutor

dirver 和excutor是两个进程程序

当spark的计算代码程序运行时就会产生一个dirver,dirver管理执行计算任务

driver会先申请资源,创建出excutor进程

excutor进程创建成功或通知driver,dirver会将计算任务以线程的方式交给excutor执行

dirver 负责管理计算任务

excutor 负责执行计算任务

4、spark-submit提交方式

在--master yarn模式下会有一个--deploy-mode指定提交模式

  • 有两种提交代码计算的模式
    • clinet模式 默认的提交模式 不指定--deploy-mode
    • cluster模式 --deploy-mode cluster
      • 在cluster模式下不会输出终端结果信息
相关推荐
lzhlizihang4 分钟前
【spark的集群模式搭建】Standalone集群模式的搭建(简单明了的安装教程)
spark·standalone模式·spark集群搭建
WX1870211287344 分钟前
在分布式光伏电站如何进行电能质量的治理?
分布式
Qspace丨轻空间1 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客2 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata4 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
不能再留遗憾了4 小时前
RabbitMQ 高级特性——消息分发
分布式·rabbitmq·ruby
水豚AI课代表4 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
茶馆大橘4 小时前
微服务系列六:分布式事务与seata
分布式·docker·微服务·nacos·seata·springcloud
材料苦逼不会梦到计算机白富美7 小时前
golang分布式缓存项目 Day 1
分布式·缓存·golang
拓端研究室TRL7 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据