目录
广播变量
如果我们要在分布式计算里面分发大的变量数据,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈,而且会大量消耗task服务器上的资源,如果将这个变量声明为广播变量,那么每个executor拥有一份,这个executor启动的task会共享这个变量,节省了通信的成本和服务器的资源。
减少task线程对应变量的定义,节省内存空间
例:定义广播变量,让进程中的线程共用变量num
python
# 广播变量
from pyspark import SparkContext
sc = SparkContext()
num = 10
# 将变量定义成广播变量
b_obj = sc.broadcast(num)
rdd = sc.parallelize([1,2,3,4])
# 转化计算
def func(x):
# 广播变量无法修改
# b_obj.value=20
# 获取广播变量值
return x+b_obj.value
rdd_map = rdd.map(func)
# 查看数据
res = rdd_map.collect()
print(res)
总结
广播变量将Driver中的变量数据传递到Executor的内存中,让Executor的多个task共用变量值
累加器
避免资源抢占造成的计算错误
例:
python
# 累加器
from pyspark import SparkContext
sc = SparkContext()
num = 10
# 将变量定义成累加器
a_obj = sc.accumulator(num)
# 生成rdd
rdd = sc.parallelize([1,2,3,4])
# 对rdd进行计算
def func(x):
print(x) # 输出rdd中元素数据
# 对累加器的值进行修改 每次加1
a_obj.add(1)
return (x,1)
rdd_map = rdd.map(func)
# 查看数据
res = rdd_map.collect()
print(res)
# 查看累加器的数据
print(a_obj.value)