python 数据挖掘库orange3 介绍

orange3 是一个非常适合初学者的data mining library. 它让使用者通过拖拽内置的组件来形成工作流。让你不需要写任何代码就可以体验到数据挖掘和可视化的魅力。

它的桌面如下,这里我创建了 3 个节点,分别是数据集、小提琴图,散点图

其中 Datasets 是从 左边的 Data 组件库中拖拽过来的,Datasets 是 orange3 内置的数据集,比如非常常用的iris(鸢尾花) 数据集。双击桌面上的 Datasets 就能选择不同的数据集来作为下一步的数据来源。

点击左下角的预览按钮,可以像 excel 一样预览这个数据集

可视化

先看一下散点图, x 轴选择了 sepal(花萼长度), y轴是 花的类别,可以看出,相关性并不是很强,有很大一段x 轴的区域,三种类别都有可能。

我们换一个 x 轴,选择 petal length (花瓣长度),发现相关性很大,基本上很容易区分开

小提琴图

小提琴图主要表现的是某个特征的分布情况。下图表现了三种花的 petal length 分布,可以看出蓝色的 Iris-setosa 分布的比较集中,而且与其他的类别没有重叠。

这意味着,当你看看到一株 petal length(花瓣长度) 小于2.5的时候,几乎可以断定它属于setosa属

有趣的是,至于花萼(sepal)的宽度,setosa属比起其它属看起来却趋向于长尾分布(小提琴更窄),说明它的分布范围随机性更大。

再看一个热力图

可以看出三种花(x轴的三个颜色) 中,y 轴是四个属性, Iris-setosa 的petal length 这个属性明显和其它两种有区别,可以作为一个直观的区分属性。

相关推荐
2301_8135995525 分钟前
Go语言怎么做秒杀系统_Go语言秒杀系统实战教程【实用】
jvm·数据库·python
--fancy4 小时前
股票预测情感分析研究案例分析
python
shughui5 小时前
PyCharm 完整教程(旧版本卸载+旧/新版本下载安装+基础使用,2026最新版附安装包)
ide·python·pycharm
小糖学代码5 小时前
LLM系列:1.python入门:15.JSON 数据处理与操作
开发语言·python·json·aigc
yejqvow125 小时前
CSS如何控制placeholder文字的颜色_使用--placeholder伪元素
jvm·数据库·python
handler015 小时前
从源码到二进制:深度拆解 Linux 下 C 程序的编译与链接全流程
linux·c语言·开发语言·c++·笔记·学习
m0_743623926 小时前
HTML怎么创建多语言切换器_HTML语言选择下拉结构【指南】
jvm·数据库·python
pele6 小时前
Angular 表单中基于下拉选择动态启用字段必填校验的完整实现
jvm·数据库·python
HHHHH1010HHHHH6 小时前
Redis怎样判断节点是否主观下线_哨兵基于down-after-milliseconds参数的心跳超时判定
jvm·数据库·python
小白学大数据6 小时前
现代Python爬虫开发范式:基于Asyncio的高可用架构实战
开发语言·爬虫·python·架构