【第十七章:Sentosa_DSML社区版-机器学习之异常检测】

【第十七章:Sentosa_DSML社区版-机器学习之异常检测】

机器学习异常检测是检测数据集中的异常数据的算子,一种高效的异常检测算法。它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。

17.1 异常检测

1.算子介绍

异常检测算子(IsolationForestNode)是检测数据集中的异常数据的算子,一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的,而不是根据信息增益或者基尼指数来选择。在建树过程中,如果一些样本很快就到达了叶子节点,那么就被认为很有可能是异常点,结果生成prediction列,值为0则正常,为1则异常。

2.算子类型

机器学习/异常检测算子。

3.算子属性说明

|-----------------|--------------------|----|---------|------|-----------------------|---------------|
| 属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
| num_tree | 树的数量 | 必填 | Integer | 5 | >0 | 模型中的树的数量 |
| sample_type | 样本取样方式 | 必填 | String | rate | 单选:number,rate | 样本取样方式 |
| sample_rate | 样本采样率(0,1] | 必填 | Double | 1.0 | 范围(0,1],样本取样方式选择rate | 样本采样率 |
| max_depth | 树的最大深度 | 必填 | Integer | 1 | >0 | 树的最大深度 |
| bootstrap | 每棵树是否重采样 | 必填 | Boolean | 否 | 单选:true,false | 每棵树是否重采样 |
| contamination | 异常值在数据集中所占的比例(0,1) | 必填 | Double | 0.1 | (0,1)之间 | 异常值在数据集中所占的比例 |
| skip_null_value | 是否跳过空值 | 必填 | Boolean | 是 | 单选:是,否 | 是否跳过空值 |

4.算子使用介绍

(1)算子初始化

参考公共功能算子初始化操作。

(2)算子属性设置

异常检测算子的属性设置如图所示

异常检测算子属性设置

(3)算子的运行

异常检测算子为建模算子,需要先训练数据生成模型,再通过模型对相同结构的数据进行处理得到最终结果。具体运行过程如下所述。

首先通过数据读入算子读取数据,中间可以接任意个数据处理算子(例,行处理,列处理等),然后接一个异常检测算子,右击算子,点击运行,得到异常检测模型。

运行异常检测算子获得异常检测模型

得到模型后右击模型,可以查看模型信息。模型后可接任意个数据处理算子,再接图表分析算子或数据写出算子,形成算子流执行,但评估算子对此模型无效。

异常检测模型算子流

可以右击模型,查看模型的模型信息。模型的运行结果如图所示

异常检测模型的运行结果

结果中Predicted_group值为0则认为为正常数据,为1则认为为异常数据。


为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版官网

Sentosa_DSML算子流开发视频

相关推荐
Ni-Guvara2 分钟前
函数对象笔记
c++·算法
love_and_hope4 分钟前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
Chef_Chen7 分钟前
从0开始学习机器学习--Day14--如何优化神经网络的代价函数
神经网络·学习·机器学习
2403_8757368720 分钟前
道品科技智慧农业中的自动气象检测站
网络·人工智能·智慧城市
泉崎26 分钟前
11.7比赛总结
数据结构·算法
你好helloworld27 分钟前
滑动窗口最大值
数据结构·算法·leetcode
学术头条43 分钟前
AI 的「phone use」竟是这样练成的,清华、智谱团队发布 AutoGLM 技术报告
人工智能·科技·深度学习·语言模型
准橙考典44 分钟前
怎么能更好的通过驾考呢?
人工智能·笔记·自动驾驶·汽车·学习方法
ai_xiaogui1 小时前
AIStarter教程:快速学会卸载AI项目【AI项目管理平台】
人工智能·ai作画·语音识别·ai写作·ai软件
孙同学要努力1 小时前
《深度学习》——深度学习基础知识(全连接神经网络)
人工智能·深度学习·神经网络