Apache Spark算法开发指导-特征转换Interaction

Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。

两个维度是3的向量集合,其中,id1是数据行的索引值,vec1以及vec2两个维度是3的向量集合:

使用Interaction算法,计算输出interactedCol ,一个维度是9的向量集合:

Java代码示例

在Java本地开发环境中,创建Interaction算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置Interaction算法输入的数据列以及输出的数据列,执行特征转换,输出数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Interaction算法代码:

特征转换输出的数据集合:

相关推荐
Lansonli2 小时前
大数据Spark(七十三):Transformation转换算子glom和foldByKey使用案例
大数据·分布式·spark
keep__go11 小时前
spark 单机安装
大数据·运维·分布式·spark
蒙特卡洛的随机游走19 小时前
Spark的persist和cache
大数据·分布式·spark
蒙特卡洛的随机游走19 小时前
Spark 中 distribute by、sort by、cluster by 深度解析
大数据·分布式·spark
梦里不知身是客1119 小时前
Spark中的宽窄依赖-宽窄巷子
大数据·分布式·spark
闲人编程1 天前
Python与大数据:使用PySpark处理海量数据
大数据·开发语言·分布式·python·spark·codecapsule·大规模
青云交2 天前
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战
flink·spark·工业互联网·预测性维护·实时数据处理·java 大数据·设备协同制造
周杰伦_Jay2 天前
【日志处理方案大比拼】 Filebeat+Kafka+Flink+Spark+ES+HDFS VS ELK/AOP/RocketMQ/大厂方案
flink·spark·kafka
小泊客3 天前
使用讯飞星火 Spark X1-32K 打造本地知识助手
大数据·分布式·spark·大模型应用·本地知识助手
筑梦之人4 天前
Spark-3.5.7文档1 - 快速开始
spark