数据挖掘神器Orange初步使用

可以在官网下载，地址为Orange，如果已经装了Anaconda，则可在Anaconda Navigator中找到一个非常猥琐的图标，下面写着Orange3，可以点击Install，装完之后点Launch就能用了。

当然也可以用命令行

复制代码

conda config --add channels conda-forge
conda install orange3

安装完成后，可在命令行启动程序

复制代码

orange-canvas
# 或者
python -m Orange.canvas

也可以直接找到orange-canvas.exe，其路径在Orange/Scripts中。

打开之后，选择help->Example Workflows，打开示例项目，这里选择Classification Tree，即分类树，打开之后如下图所示，其中文本框可以编辑，下图就是将原文小小地翻译了一下。

在Orange的画板上，最小单元为组件，双击那些圆形的组件，可以查看其属性。点击左侧的Data Table，添加一个新的组件，并点击其左侧的虚线，拉出线条与File相连接，就会把数据"导入"到表格中，双击就可以查看了。

将File图标拖入右侧画布，双击弹出窗口，选择iris.tab文件，关闭。

将Data Table拖入画布，点击File外侧的虚线并拖动，使二者连接，然后双击数据表，就可以查看iris.tab的内容了。

右侧为数据表格，左侧可对数据表格的一些特性进行定制，比如勾选Visulize numeric values后，表格中会用蓝色的横线表示某个单元格中的值在整个列中的相对大小。

用同样的方式，将Paint Data也拖入画布，并与File连接，然后双击，就可以看到对数据的可视化展示，效果如下

右侧就是绘图窗口，而左侧相当于是控制台。首先Labels有三类不同颜色，正好对应上表中iris那一栏的三种类别。下面Tools中有六个工具，可分为四类

Brush和Put用于增加数据，前者像刷子一样，一下新增多组数据，后者则一次新增一个。以上图为例，由于选中了蓝色的类别，所以使用这两个工具会在鼠标所在位置，新增setosa点。
Jitter和Magnet：用于调整数据在图中的位置，Jitter可以让数据点远离鼠标；Magnet则可以让数据点靠近鼠标。
Select：用于框选
Clear：清除样本

在使用上述工具后，会改变原有的数据排布，此时可点击Reset to Input Data，以重置数据。

接下来，将Feature Statistics拖动到画布中，双击点开即可看到三类鸢尾花的分布情况。