Apache Spark算法开发指导-特征转换Normalizer

Normalizer算法用于处理数据标准化以及规范化,缩小数据元素之间的范围差距,让数据元素保持在[-1,1]范围内,更加易于执行数据分析,例如,给定一个向量数据集合以及指定一个参数p,输出数据标准化的向量数据集合。

当p=1时,p的范数Norm的计算公式:

当p=2时,p的范数Norm的计算公式:

当p=infinity时,p的范数Norm的计算公式:

当p=其他值时,p的范数Norm的计算公式:

向量数据集合的数据元素的数据规范化的计算公式:

Java代码示例

在Java本地开发环境中,创建Normalizer算法测试类,初始化spark实例:

定义测试数据集合,设置数据集合的列名称以及数据类型,对数据集合执行初始化,生成spark数据类型的数据集合:

设置p=1,执行特征转换,输出数据标准化的向量数据集合:

设置p=infinity,执行特征转换,输出数据标准化的向量数据集合:

运行Java代码,特征转换输出的数据集合:

Scala代码示例

与Java代码示例的功能逻辑相同:

启动spark-shell的Scala本地运行环境:

运行Normalizer算法代码:

特征转换输出的数据集合:

相关推荐
小坏讲微服务1 天前
MaxWell中基本使用原理 完整使用 (第一章)
大数据·数据库·hadoop·sqoop·1024程序员节·maxwell
liu****2 天前
18.HTTP协议(一)
linux·网络·网络协议·http·udp·1024程序员节
洛_尘2 天前
JAVA EE初阶 6: 网络编程套接字
网络·1024程序员节
2301_800256112 天前
关系数据库小测练习笔记(1)
1024程序员节
金融小师妹3 天前
基于多源政策信号解析与量化因子的“12月降息预期降温”重构及黄金敏感性分析
人工智能·深度学习·1024程序员节
GIS数据转换器3 天前
基于GIS的智慧旅游调度指挥平台
运维·人工智能·物联网·无人机·旅游·1024程序员节
南方的狮子先生3 天前
【C++】C++文件读写
java·开发语言·数据结构·c++·算法·1024程序员节
Neil今天也要学习3 天前
永磁同步电机无速度算法--基于三阶LESO的反电动势观测器
算法·1024程序员节
开开心心_Every4 天前
专业视频修复软件,简单操作效果好
学习·elasticsearch·pdf·excel·音视频·memcache·1024程序员节
liu****5 天前
16.udp_socket(三)
linux·开发语言·数据结构·c++·1024程序员节