Apache Spark算法开发指导-特征转换Interaction

Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。

两个维度是3的向量集合,其中,id1是数据行的索引值,vec1以及vec2两个维度是3的向量集合:

使用Interaction算法,计算输出interactedCol ,一个维度是9的向量集合:

Java代码示例

在Java本地开发环境中,创建Interaction算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置Interaction算法输入的数据列以及输出的数据列,执行特征转换,输出数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Interaction算法代码:

特征转换输出的数据集合:

相关推荐
Light606 小时前
点燃变革:领码SPARK融合平台如何重塑OA,开启企业智慧协同新纪元?
大数据·分布式·spark
写代码的【黑咖啡】7 小时前
如何在大数据数仓中搭建数据集市
大数据·分布式·spark
beijingliushao15 小时前
103-Spark之Standalone环境测试
大数据·ajax·spark
beijingliushao17 小时前
102-Spark之Standalone环境安装步骤-2
大数据·分布式·spark
青云交19 小时前
Java 大视界 -- Java 大数据机器学习模型在金融风险管理体系构建与风险防范能力提升中的应用(435)
java·大数据·机器学习·spark·模型可解释性·金融风控·实时风控
小辉懂编程1 天前
Spark sql 常用时间函数 to_date ,datediff
大数据·sql·spark
计算机毕业编程指导师2 天前
【Python大数据选题】基于Spark+Django的电影评分人气数据可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习
大数据·hadoop·python·计算机·spark·django·电影评分人气
AI_56782 天前
从“内存溢出”到“稳定运行”——Spark OOM的终极解决方案
人工智能·spark
B站计算机毕业设计之家2 天前
基于大数据热门旅游景点数据分析可视化平台 数据大屏 Flask框架 Echarts可视化大屏
大数据·爬虫·python·机器学习·数据分析·spark·旅游
ha_lydms3 天前
Spark函数
大数据·分布式·spark