GraphFrames路径边多值字段过滤

  1. 背景:

GraphFrames是spark封装的关于图算子的操作,并且可以兼容pyspark的调用方式.里面包括了创建图,遍历图,过滤图的一些操作。在创建图的过程需要定义图上的节点和图的边,边的定义可以一般为三元组,即:(A, B, EdgeType),当按某种条件继续边的过滤时,会有两种情况:一是对RDD里的某一列内部进行过滤;二是过滤前后两列的情况,比如在边的路径上,按前后两条边的某种关系继续过滤,如按日期继续排序。该问题定义为DataFrame RDD对多值字段的过滤解析问题,即:RDD中某个字段含有多个值,多值的表达一般为array,struct等。

2、方法

(1)struct

对spark的dataframe多值字段的过滤,首先通过dataFrame.printSchema()打印看到df中每个字段的类型。

对于这种以结构体struct存储,过滤的方法采用

dataframe.select("first.data").show(),通过对象.属性的方式实现对某一个属性的引用;进而通过filter方法进行过滤

dataframe.filter("sec.date > first.date and third.date > sec.date").show()

(2)array

df = spark.createDataFrame(('a',\[1,2,3), ('b', 4,5,6)], 'key', 'values')

df.printSchema()

root

|-- key: string (nullable = true)

|-- values: array (nullable = true)

| |-- element: long (containsNull = true)

df.select(expr('key'), expr('values1')).show()

df.selectExpr('key', 'values1').show()

df.withColumn('c1', df'values'.getItem(1)).drop('values').show()

(3)vector

将array转成vector的方法:

from pyspark.ml.linalg import Vectors, VectorUDT

from pyspark.sql.functions import udf

list_to_vector_udf = udf(lambda l: Vectors.dense(l), VectorUDT())

df = df.select('key', list_to_vector_udf(df'values').alias('values'))

df.show()

df.printSchema()

root

|-- key: string (nullable = true)

|-- values: vector (nullable = true)

from pyspark.sql.functions import udf

from pyspark.sql.types import FloatType

firstelement=udf(lambda v:float(v0),FloatType())

df.select(firstelement('values').alias('val1')).show()

  1. 总结

对dtaframe的多值字段进行提取和过滤,spark都提供了对应的方法,根据自己的需要进行不同的过滤

相关推荐
ACP广源盛1392462567312 小时前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
KaMeidebaby2 天前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
阿里云大数据AI技术3 天前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark
暴躁小师兄数据学院4 天前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
IDIOT___IDIOT4 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark
工业互联网专业5 天前
基于Spark的共享单车数据存储系统的设计与实现_flask+spider
spark·flask·毕业设计·源码·课程设计·spider·共享单车
X.AI6665 天前
英伟达RTX Spark发布:AI PC的下一战,不是跑分,而是本地Agent
大数据·人工智能·spark
KaMeidebaby6 天前
卡梅德生物技术快报|peg 修饰调控 MXene/WS2 异质结,氨气传感器制备与机理研究
大数据·前端·人工智能·架构·spark·新浪微博
零壹AI实验室7 天前
NVIDIA RTX Spark深度测评:个人AI智能体时代真的来了?
人工智能·ajax·spark