kettle插件-kettle数据挖掘ARFF插件

今天我们一起来学习一款团队自研的数据挖掘插件arff-output,首先先介绍下arff文件的相关知识。

1、什么是ARFF

ARFF(Attribute-Relation File Format)文件是一种专门用于数据挖掘工具Weka的数据格式。

ARFF文件主要由两部分组成:头部(Header)和数据部分(Data)。头部描述了数据集的元信息,包括数据集名称、关系(Relation)、属性(Attribute)和注释(Comment),而数据部分则包含具体的数据实例(Instance)。

复制代码
@relation data

@attribute class {yes,no}
@attribute age numeric
@attribute income numeric

@data
yes,30,50000
no,25,30000

在上述ARFF格式的头部信息中,定义了一个名为 data 的数据集,包含三个属性: class (类别,取值为 yes 或 no ), age (年龄,为数值类型)以及 income (收入,为数值类型)。接下来的数据部分则以 @data 标识开始,后面跟着具体的数据实例。

2、kettle 中生成arff文件

1)将自研插件arff-output.zip 解压直接放到kettle的plugins目录下面

2)重启spoon客户端。

3、设计流程

1)生成记录步骤模拟数据

2)arff-output步骤生成arff文件

4、生成记录步骤设置

设置了三个字段name,age,geyan。限制设置为1,表示只执行一次。

5、ARFF输出设置

1)设置文件路径和关系名称

2)设置格式和编码

3)设置写入字段

6、保存&允许

程序正常运行,生成文件test.arff,文件内容如下:

done!!!

相关推荐
风清再凯1 小时前
04_es原理&filebeat使用
大数据·elasticsearch·搜索引擎
小小王app小程序开发2 小时前
盲盒小程序开发新视角:从用户体验到运营落地的分析拆解
大数据·ux
救救孩子把3 小时前
14-机器学习与大模型开发数学教程-第1章 1-6 费马定理与极值判定
人工智能·数学·机器学习
诸葛箫声3 小时前
十类图片深度学习提升准确率(0.9317)
人工智能·深度学习
救救孩子把3 小时前
11-机器学习与大模型开发数学教程-第1章1-3 极限与连续性
人工智能·数学·机器学习
OG one.Z3 小时前
01_机器学习初步
人工智能·机器学习
HyperAI超神经3 小时前
AI预判等离子体「暴走」,MIT等基于机器学习实现小样本下的等离子体动力学高精度预测
人工智能·神经网络·机器学习·ai·强化学习·可控核聚变·托卡马克
weixin_525936334 小时前
部分Spark SQL编程要点
大数据·python·sql·spark
每天学一点儿4 小时前
感知机:单层,多层(二分类,多分类)
人工智能·算法
wan5555cn4 小时前
当代社会情绪分类及其改善方向深度解析
大数据·人工智能·笔记·深度学习·算法·生活