机器学习实战记录(1)

决策树------划分数据集

复制代码
def splitDataSet(dataSet, axis, value):		
	retDataSet = []										#创建返回的数据集列表
	for featVec in dataSet: 							#遍历数据集
		if featVec[axis] == value:
			reducedFeatVec = featVec[:axis]				#去掉axis特征
			reducedFeatVec.extend(featVec[axis+1:]) 	#将符合条件的添加到返回的数据集
			retDataSet.append(reducedFeatVec)
	return retDataSet		  							#返回划分后的数据集

这个代码就是按axis划分,然后每次把它去掉。

复制代码
def splitDataSet(dataSet, axis, value):
  • dataSet:这是输入的数据集,通常是一个二维列表,其中每个子列表代表一个样本,最后一项通常是标签(分类)。
  • axis :这个参数是整数,表示当前划分的特征的索引位置。假设我们的数据集有多个特征(列),axis 就指定了你想要按哪一个特征来划分数据集。
  • value :这个参数是我们在数据集中按 axis 这个特征划分时,要求该特征的取值为 value。即:我们希望选择所有在此特征上值为 value 的样本。

返回的 retDataSet

retDataSet 是一个空列表,用来保存符合条件的子集。函数会遍历 dataSet,每次找到符合条件的样本(即特征 axis 的值为 value),就将该样本的特征信息(去掉当前特征)加入到 retDataSet

retDataSet = [] # 创建返回的数据集列表

  • 创建一个空的列表 retDataSet,用来保存符合条件的子集。
复制代码

python

复制代码

for featVec in dataSet: # 遍历数据集中的每一个样本

  • 使用 for 循环遍历 dataSet 中的每一行数据(每个 featVec)。每个 featVec 是一个样本,它包含多个特征值,通常最后一个元素是标签(类别)

if featVec[axis] == value:

  • 对于每一个样本 featVec,判断该样本的特征 axis 对应的取值是否等于 value。如果该样本在 axis 特征上的取值与 value 相等,就满足条件,应该将该样本加入返回的子集 retDataSet 中。

reducedFeatVec = featVec[:axis] # 去掉当前特征(axis)

  • 通过 featVec[:axis] 获取当前样本的特征,去掉 axis 位置的特征。比如,如果数据集中有5个特征(第0列到第4列),且 axis = 2,那么 featVec[:axis] 就是将样本中第2列之前的特征提取出来(不包括第2列),即 [featVec[0], featVec[1]]

reducedFeatVec.extend(featVec[axis+1:]) # 将符合条件的特征值部分加入返回的数据集

  • featVec[axis+1:] 表示去掉了 axis 位置的特征后的部分,即从 axis+1 到最后的特征。将这部分特征信息添加到 reducedFeatVec 中。extend 方法会将一个列表的元素加入到另一个列表中,确保 reducedFeatVec 包含了除了当前特征 axis 外的所有特征。

return retDataSet # 返回划分后的数据集

  • 最后,函数返回划分后的子集 retDataSet,它包含了所有在特定特征 axis 上取值为 value 的样本(每个样本去掉了 axis 特征)。

假设有如下数据集(dataSet):

复制代码
dataSet = [
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['青年', '是', '否', '好', '放贷'],
    ['青年', '是', '是', '一般', '不放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['中年', '是', '否', '好', '放贷'],
    ['中年', '是', '是', '一般', '不放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷'],
    ['老年', '是', '否', '好', '放贷'],
    ['老年', '是', '是', '一般', '不放贷']
]

假设我们希望根据第二个特征"是否有工作"(axis=1)进行划分,我们调用 splitDataSet 函数,并指定取值

复制代码
result = splitDataSet(dataSet, 1, '否')

在这个例子中,axis=1 表示我们正在根据第二个特征("是否有工作")进行划分,value='否' 表示我们选择特征值为"否"的样本。调用 splitDataSet 函数后,返回的 result 是:

复制代码
[
    ['青年', '否', '否', '一般', '不放贷'],
    ['青年', '否', '是', '好', '放贷'],
    ['中年', '否', '否', '一般', '不放贷'],
    ['中年', '否', '是', '好', '放贷'],
    ['老年', '否', '否', '一般', '不放贷'],
    ['老年', '否', '是', '好', '放贷']
]

这些样本的第二个特征都是"否"。可以看到,函数成功地将数据集按第二个特征值为"否"进行划分,且去除了"是否有工作"这一特征,返回了包含其余特征的子集。

相关推荐
开发者工具分享4 分钟前
缺乏项目进度可视化手段,如何提升展示效果
人工智能
慧星云13 分钟前
ComfyUI工作流 :一键二次元角色转真人
人工智能·云计算·aigc
聚客AI17 分钟前
⚡ 突破LLM三大局限:LangChain架构核心解析与最佳实践
人工智能·langchain·llm
Sui_Network21 分钟前
tBTC 现已上线 Sui,带来 5 亿美元的比特币流动性
人工智能·物联网·web3·区块链·量子计算
春哥的研究所1 小时前
AI人工智能名片小程序源码系统,名片小程序+分销商城+AI客服,包含完整搭建教程
人工智能·微信小程序·小程序
ahead~1 小时前
【大模型入门】访问GPT_API实战案例
人工智能·python·gpt·大语言模型llm
喜欢吃豆1 小时前
深入企业内部的MCP知识(三):FastMCP工具转换(Tool Transformation)全解析:从适配到增强的工具进化指南
java·前端·人工智能·大模型·github·mcp
pany1 小时前
写代码的节奏,正在被 AI 改写
前端·人工智能·aigc
我爱一条柴ya1 小时前
【AI大模型】神经网络反向传播:核心原理与完整实现
人工智能·深度学习·神经网络·ai·ai编程
万米商云1 小时前
企业物资集采平台解决方案:跨地域、多仓库、百部门——大型企业如何用一套系统管好百万级物资?
大数据·运维·人工智能