Apache Spark算法开发指导-特征转换Interaction

Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。

两个维度是3的向量集合,其中,id1是数据行的索引值,vec1以及vec2两个维度是3的向量集合:

使用Interaction算法,计算输出interactedCol ,一个维度是9的向量集合:

Java代码示例

在Java本地开发环境中,创建Interaction算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置Interaction算法输入的数据列以及输出的数据列,执行特征转换,输出数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Interaction算法代码:

特征转换输出的数据集合:

相关推荐
编程彩机5 小时前
互联网大厂Java面试:从Java SE到大数据场景的技术深度解析
java·大数据·spring boot·面试·spark·java se·互联网大厂
ApacheSeaTunnel10 小时前
Apache SeaTunnel Zeta、Flink、Spark 怎么选?底层原理 + 实战对比一次讲透
大数据·flink·spark·开源·数据集成·seatunnel·数据同步
迎仔15 小时前
06-Spark 进阶指南:架构原理与 Alluxio 加速
大数据·架构·spark
阿里云大数据AI技术15 小时前
淘宝闪购基于阿里云 EMR Serverless Spark&Paimon 的湖仓实践:超大规模下的特征生产&多维分析双提效
starrocks·阿里云·spark·paimon
鸿乃江边鸟17 小时前
Spark Datafusion Comet 向量化Rust Native--执行Datafusion计划
大数据·rust·spark·native
小邓睡不饱耶17 小时前
Spark Streaming实时微博热文分析系统:架构设计与深度实现
大数据·分布式·spark
Zilliz Planet17 小时前
<span class=“js_title_inner“>Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?</span>
大数据·数据仓库·分布式·spark·etl
uesowys18 小时前
Apache Spark算法开发指导-Gradient-boosted tree classifier
人工智能·算法·spark
徐先生 @_@|||1 天前
Spark DataFrame常见的Transformation和Actions详解
大数据·分布式·spark
走遍西兰花.jpg2 天前
spark配置
大数据·分布式·spark