spark任务运行

运行环境

powershell 复制代码
在这里插入代码片
[root@hadoop000 conf]# java -version
java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
powershell 复制代码
[root@hadoop000 conf]# echo $JAVA_HOME
/home/hadoop/app/jdk1.8.0_144
powershell 复制代码
[root@hadoop000 conf]# vi spark-env.sh
[root@hadoop000 conf]# mv slaves.template slaves
[root@hadoop000 conf]# vi slave

步骤

powershell 复制代码
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://192.168.2.111:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.2.0.jar

spark-shell

powershell 复制代码
[root@hadoop000 bin]# /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin/spark-shell \
> --master spark://192.168.2.111:7077 \
> --executor-memory 2G \
> --total-executor-cores 2
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/02/15 16:45:37 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/02/15 16:45:43 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://192.168.2.111:4040
Spark context available as 'sc' (master = spark://192.168.2.111:7077, app id = app-20250215164538-0002).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_144)
Type in expressions to have them evaluated.
Type :help for more information.
powershell 复制代码
scala> sc.textFile("hdfs://192.168.2.102:9000//user/spark/input/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://192.168.2.102:9000//user/spark/out")
powershell 复制代码
scala> sc.textFile("hdfs://192.168.2.102:9000/user/spark/out/*").collect().foreach(println)
(orange,1)
(queen,1)
(rabbit,1)
(fish,1)
(dog,1)
(apple,1)
(pig,1)
(umbrella,1)
(snake,1)
(lion,1)
(juice,1)
(cat,1)
(tiger,1)
(banana,1)
(monkey,1)
(nose,1)
(kite,1)
(elephant,1)
(ice,1)
(goat,1)
(horse,1)
相关推荐
闪电悠米31 分钟前
黑马点评-Redis 消息队列-03_stream_consumer_group
开发语言·数据库·redis·分布式·缓存·junit·lua
无忧智库2 小时前
某公共大数据资源中心平台建设项目可行性研究方案(PPT)
大数据
z落落4 小时前
C# 事件(Event)+自定义带参数事件例子
开发语言·分布式·c#
诗词在线4 小时前
求推荐飞花令
大数据·人工智能·python
湘美书院--湘美谈教育4 小时前
湘美谈教育AI系列经验集锦:赋能整理聊斋志异大寓言
大数据·人工智能·深度学习·神经网络·机器学习
jrjrgood5 小时前
现货黄金和黄金期货的区别有哪些?如何投资?
大数据·人工智能·区块链
我是一颗柠檬5 小时前
【Java项目技术亮点】分库分表+数据路由策略:单表5000万后的架构升级方案
java·开发语言·分布式·架构
清辞8536 小时前
Coze从入门到实战---第一、二章
大数据·人工智能·学习·语言模型
TomatoStudy6 小时前
IT职业教育AI落地与实训体系建设复盘——以职坐标模式为例
大数据·人工智能
半夜修仙6 小时前
RabbitMQ中如何保证消息的可靠性传输
java·分布式·中间件·rabbitmq·github·java-rabbitmq