kettle插件-kettle数据挖掘ARFF插件

今天我们一起来学习一款团队自研的数据挖掘插件arff-output,首先先介绍下arff文件的相关知识。

1、什么是ARFF

ARFF(Attribute-Relation File Format)文件是一种专门用于数据挖掘工具Weka的数据格式。

ARFF文件主要由两部分组成:头部(Header)和数据部分(Data)。头部描述了数据集的元信息,包括数据集名称、关系(Relation)、属性(Attribute)和注释(Comment),而数据部分则包含具体的数据实例(Instance)。

复制代码
@relation data

@attribute class {yes,no}
@attribute age numeric
@attribute income numeric

@data
yes,30,50000
no,25,30000

在上述ARFF格式的头部信息中,定义了一个名为 data 的数据集,包含三个属性: class (类别,取值为 yes 或 no ), age (年龄,为数值类型)以及 income (收入,为数值类型)。接下来的数据部分则以 @data 标识开始,后面跟着具体的数据实例。

2、kettle 中生成arff文件

1)将自研插件arff-output.zip 解压直接放到kettle的plugins目录下面

2)重启spoon客户端。

3、设计流程

1)生成记录步骤模拟数据

2)arff-output步骤生成arff文件

4、生成记录步骤设置

设置了三个字段name,age,geyan。限制设置为1,表示只执行一次。

5、ARFF输出设置

1)设置文件路径和关系名称

2)设置格式和编码

3)设置写入字段

6、保存&允许

程序正常运行,生成文件test.arff,文件内容如下:

done!!!

相关推荐
m0_6294947319 小时前
LangGraph 构建AI Agent智能体
人工智能·大模型·langgraph
刘大猫.19 小时前
宝马发布全新AI智能座舱助手 能理解用户复杂出行需求
人工智能·算法·机器学习·ai·大模型·算力·ai智能座舱助手
syounger20 小时前
SAP新API政策引发AI生态焦虑:开放平台还是变相锁定?
人工智能·microsoft
缝艺智研社20 小时前
誉财 YC - 16 POLO 衫智能自动钉扣机:POLO 衫钉扣工序的革新者
人工智能·新人首发·自动化缝纫机·线上模板机·无人自动化产线
hhb_61820 小时前
SPSS问卷调查数据信效度分析及回归建模实操案例
人工智能·数据挖掘·回归
WL_Aurora20 小时前
MapReduce经典例题【第一期】
大数据·mapreduce
WHS-_-202220 小时前
Rank-Revealing Bayesian Block-Term Tensor Completion With Graph Information
人工智能·python·机器学习
T.i.s20 小时前
总变差正则化(TV Loss)的思考
人工智能·pytorch·深度学习
Python私教20 小时前
FuturesDesk 集成 OMC 多智能体编排提效
人工智能·windows·开源
sunneo20 小时前
专栏C-产品战略与竞争-05-产品组合
人工智能·产品运营·产品经理·ai编程·ai-native