- 背景:
GraphFrames是spark封装的关于图算子的操作,并且可以兼容pyspark的调用方式.里面包括了创建图,遍历图,过滤图的一些操作。在创建图的过程需要定义图上的节点和图的边,边的定义可以一般为三元组,即:(A, B, EdgeType),当按某种条件继续边的过滤时,会有两种情况:一是对RDD里的某一列内部进行过滤;二是过滤前后两列的情况,比如在边的路径上,按前后两条边的某种关系继续过滤,如按日期继续排序。该问题定义为DataFrame RDD对多值字段的过滤解析问题,即:RDD中某个字段含有多个值,多值的表达一般为array,struct等。
2、方法
(1)struct
对spark的dataframe多值字段的过滤,首先通过dataFrame.printSchema()打印看到df中每个字段的类型。
对于这种以结构体struct存储,过滤的方法采用
dataframe.select("first.data").show(),通过对象.属性的方式实现对某一个属性的引用;进而通过filter方法进行过滤
dataframe.filter("sec.date > first.date and third.date > sec.date").show()
(2)array
df = spark.createDataFrame([('a',[1,2,3]), ('b', [4,5,6])], ['key', 'values'])
df.printSchema()
root
|-- key: string (nullable = true)
|-- values: array (nullable = true)
| |-- element: long (containsNull = true)
df.select(expr('key'), expr('values[1]')).show()
df.selectExpr('key', 'values[1]').show()
df.withColumn('c1', df['values'].getItem(1)).drop('values').show()
(3)vector
将array转成vector的方法:
from pyspark.ml.linalg import Vectors, VectorUDT
from pyspark.sql.functions import udf
list_to_vector_udf = udf(lambda l: Vectors.dense(l), VectorUDT())
df = df.select('key', list_to_vector_udf(df['values']).alias('values'))
df.show()
df.printSchema()
root
|-- key: string (nullable = true)
|-- values: vector (nullable = true)
from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType
firstelement=udf(lambda v:float(v[0]),FloatType())
df.select(firstelement('values').alias('val1')).show()
- 总结
对dtaframe的多值字段进行提取和过滤,spark都提供了对应的方法,根据自己的需要进行不同的过滤