Apache Spark算法开发指导-特征转换Interaction

Interaction算法实现集合之间的向量积,例如,给定两个维度是n的向量集合,使用向量积计算输出一个维度是n*n的向量集合。

两个维度是3的向量集合,其中,id1是数据行的索引值,vec1以及vec2两个维度是3的向量集合:

使用Interaction算法,计算输出interactedCol ,一个维度是9的向量集合:

Java代码示例

在Java本地开发环境中,创建Interaction算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置Interaction算法输入的数据列以及输出的数据列,执行特征转换,输出数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Interaction算法代码:

特征转换输出的数据集合:

相关推荐
扫地的小何尚8 小时前
AI创新的火花:NVIDIA DGX Spark开箱与深度解析
大数据·人工智能·spark·llm·gpu·nvidia·dgx
B站_计算机毕业设计之家8 小时前
spark实战:python股票数据分析可视化系统 Flask框架 金融数据分析 Echarts可视化 大数据技术 ✅
大数据·爬虫·python·金融·数据分析·spark·股票
可惜我是水瓶座__8 小时前
[Spark] TaskMetrics指标收集
spark·1024程序员节
hzp6668 小时前
spark动态分区参数spark.sql.sources.partitionOverwriteMode
大数据·hive·分布式·spark·etl·partitionover
菜鸡儿齐3 天前
spark组件-spark sql-读取数据
大数据·sql·spark
GitCode官方3 天前
科大讯飞星火科技文献大模型 Spark-Scilit-X1-13B 在 GitCode 开源,助力科研智能化革新!
科技·spark·gitcode
想ai抽4 天前
大数据计算引擎-从源码看Spark AQE对于倾斜的处理
大数据·数据仓库·spark
菜鸡儿齐4 天前
spark组件-spark core(批处理)-rdd创建
大数据·分布式·spark