Apache Spark算法开发指导-特征转换Interaction

Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。

两个维度是3的向量集合,其中,id1是数据行的索引值,vec1以及vec2两个维度是3的向量集合:

使用Interaction算法,计算输出interactedCol ,一个维度是9的向量集合:

Java代码示例

在Java本地开发环境中,创建Interaction算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置Interaction算法输入的数据列以及输出的数据列,执行特征转换,输出数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Interaction算法代码:

特征转换输出的数据集合:

相关推荐
阿里云大数据AI技术5 小时前
Celeborn 如何让 EMR Serverless Spark 的 Shuffle 舒心、放心、安心
大数据·spark
D愿你归来仍是少年12 小时前
Apache Spark 第 6 章 附加篇:Tungsten 引擎深度解析
大数据·spark·apache
阿里云大数据AI技术14 小时前
EMR Serverless Spark 携手 PAI/百炼,开启“SQL 即 AI”的新篇章
sql·阿里云·spark·serverless·pai
jerryinwuhan14 小时前
Spark安装配置2
大数据·分布式·spark
dinl_vin14 小时前
一文通关Spark
大数据·分布式·spark
jerryinwuhan15 小时前
Spark RDD 编程入门
大数据·分布式·spark
D愿你归来仍是少年3 天前
Apache Spark 第六章:执行计划与 DAG 调度
大数据·spark
Hello.Reader4 天前
PySpark DataFrame 快速入门创建、查询、分组、读写、SQL 实战一篇讲透
数据库·sql·spark
D愿你归来仍是少年4 天前
Apache Spark 第五章:Spark SQL 与 DataFrame
大数据·spark
D愿你归来仍是少年5 天前
Apache Spark 第 3 章:核心概念 RDD / DataFrame
大数据·spark·apache