技术栈
scikit-learn
KeKe_L
9 天前
python
·
学习
·
scikit-learn
scikit-learn学习Day30
小鹿( ﹡ˆoˆ﹡ )
10 天前
python
·
机器学习
·
scikit-learn
Scikit-learn:数据科学中的瑞士军刀
在数据科学领域,Python 无疑是开发者的首选语言之一。而在这个生态中,Scikit-learn 作为最流行的机器学习库之一,凭借其简洁易用的API和强大的功能,成为了许多数据科学家和工程师的必备工具。无论是初学者还是资深开发者,掌握 Scikit-learn 都能显著提升工作效率,解决实际问题。本文将带你深入了解 Scikit-learn 的核心概念、基本用法,并通过多个实例展示其在不同场景下的应用。
raylu666
10 天前
机器学习
·
线性回归
·
scikit-learn
基于Scikit-learn的多元线性回归模型构建与验证
废话不多说,直接上代码原始数据是汽车 二氧化碳污染指标排放,数据如下
开出南方的花
12 天前
人工智能
·
pytorch
·
深度学习
·
scikit-learn
·
张量
深度学习-张量相关
张量是pytorch的基本数据结构张量,英文为Tensor,是机器学习的基本构建模块,是以数字方式表示数据的形式。
武子康
12 天前
大数据
·
人工智能
·
机器学习
·
数据挖掘
·
回归
·
scikit-learn
·
kmeans
大数据-216 数据挖掘 机器学习理论 - KMeans 基于轮廓系数来选择 n_clusters
上节我们完成了如下的内容:我们通常绘制轮廓系数分布图和聚类后的数据分布图来选择我们最佳的 n_clusters (代码在下面,这里放图) 样本数据的 KMeans 轮廓分析 簇为 2 样本数据的 KMeans 轮廓分析 簇为 4 样本数据的 KMeans 轮廓分析 簇为 6 样本数据的 KMeans 轮廓分析 簇为 8
武子康
13 天前
大数据
·
人工智能
·
python
·
机器学习
·
数据挖掘
·
scikit-learn
·
kmeans
大数据-213 数据挖掘 机器学习理论 - KMeans Python 实现 距离计算函数 质心函数 聚类函数
上节我们完成了如下的内容:此处使用鸢尾花数据集为例:执行结果如下图所示:我们需要定义一个两个长度相等的数组之间欧式距离计算函数,在不直接应用计算结果,只比较距离远近的情况下,我们可以用距离平方和代替距离进行比较,化简开平方运算,从而减少函数计算量。此外需要说明的是,涉及到距离计算的,一定要注意量纲的统一。 如果量纲不统一的话,模型极易偏向量纲大的那一方。
慕卿扬
15 天前
笔记
·
python
·
学习
·
机器学习
·
scikit-learn
基于python的机器学习(二)—— 使用Scikit-learn库
目录一、样本及样本划分1.1 划分样本的方法1.1.1 train_test_split()函数1.1.2 时间序列划分
小码贾
15 天前
人工智能
·
机器学习
·
回归
·
scikit-learn
·
性能评估
评估 机器学习 回归模型 的性能和准确度
回归 是一种常用的预测模型,用于预测一个连续因变量和一个或多个自变量之间的关系。那么,最后评估 回归模型 的性能和准确度非常重要,可以帮助我们判断模型是否有效并进行改进。
武子康
15 天前
大数据
·
人工智能
·
python
·
机器学习
·
数据挖掘
·
逻辑回归
·
scikit-learn
大数据-210 数据挖掘 机器学习理论 - 逻辑回归 scikit-learn 实现 penalty solver
上节我们完成了如下的内容:正则化参数,LogisticRegression默认带了正则化项,penalty参数可选择的值有1和2,分别对应L1的正则化和L2的正则化,默认是L2的正则化。 在调参时如果我们主要的目的只是为了解决过拟合,一般penalty选择L2正则化就够了,但是如果选择L2正则化后还是过拟合,即预测效果差的时候,就可以考虑L1正则化。另外,如果模型的特征非常多,我们希望一些不重要的特征系数归零,从而让模型稀疏化的话,也可以使用L1正则化。 penalty参数的选择会影响我们损失函数优化算法
武子康
16 天前
大数据
·
人工智能
·
机器学习
·
数据挖掘
·
scikit-learn
大数据-208 数据挖掘 机器学习理论 - 岭回归 和 Lasso 算法 原理
上节我们完成了如下的内容:岭回归(Ridge Regression)和Lasso(Least Absolute Shrinkage and Selection Operator)是两种用于处理多重共线性问题的正则化回归方法。这两种方法通过添加正则化项(或惩罚项)来约束模型,使其在变量多、数据噪声大或者存在多重共线性(即自变量之间高度相关)的情况下,能够提高模型的泛化能力和预测效果。
武子康
17 天前
大数据
·
算法
·
机器学习
·
数据挖掘
·
回归
·
scikit-learn
大数据-206 数据挖掘 机器学习理论 - 多元线性回归 回归算法实现 算法评估指标
上节我们完成了如下的内容:多元线性回归的执行函数编写并不复杂,主要设计大量的矩阵计算,需要借助 Numpy 中的矩阵数据格式来完成。 首先执行标准导入:
慕卿扬
18 天前
人工智能
·
笔记
·
python
·
学习
·
机器学习
·
scikit-learn
基于python的机器学习(一)—— 基础知识(Scikit-learn安装)
目录一、机器学习基础1.1 机器学习概述1.2 监督学习、无监督学习和强化学习1.3 聚类、分类、回归、标注
萧鼎
18 天前
人工智能
·
机器学习
·
scikit-learn
机器学习初学者指南:Scikit-Learn基础到实战
在数据科学的领域,机器学习(Machine Learning, ML)已经成为了一个重要的工具。而对于初学者来说,理解机器学习的基本概念和技术是入门的关键。本文将介绍Scikit-Learn,一个流行的Python机器学习库,帮助你从基础知识到实战应用的全面了解。
武子康
20 天前
java
·
大数据
·
python
·
算法
·
机器学习
·
数据挖掘
·
scikit-learn
大数据-196 数据挖掘 机器学习理论 - scikit-learn 算法库实现 案例1 红酒 案例 2 乳腺癌
上节我们完成了如下的内容:scikit-learn 自 2007 年以来,已经成为python 中重要的机器学习库了,简称 sklearn,支持了包括:分类、回归、降维、聚类四大机器学习的算法,以及特征提取、数据预处理和模型评估三大模块。 在工程应用中,用 Python 手写代码来从头实现一个算法的可能性非常低,这样不仅耗时费力,还不一定能够写出架构清晰、稳定性强的模型。 更多情况下,采集到的数据,根据数据特征选择适合的算法,在工具包中调用算法,调整算法的参数,获取所需要的信息,从而实现算法效率和效果之间
武子康
20 天前
大数据
·
人工智能
·
决策树
·
机器学习
·
数据挖掘
·
scikit-learn
·
sklearn
大数据-203 数据挖掘 机器学习理论 - 决策树 sklearn 剪枝参数 样本不均匀问题
上节我们完成了如下的内容:限制树的最大深度,超过设定深度的树全部剪掉,一般用做树的精修。 这是用的最广泛的剪枝参数,在高维度低样本量时非常有效,决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效的限制过拟合。这在集成算法中也非常实用。 实际使用时,建议从=3 开始尝试,看看拟合的效果再决定是否增加设定深度。
武子康
20 天前
大数据
·
vue.js
·
算法
·
决策树
·
机器学习
·
数据挖掘
·
scikit-learn
·
剪枝
大数据-201 数据挖掘 机器学习理论 - 决策树 局部最优 剪枝 分裂 二叉分裂
上节我们完成了如下的内容:决策树是一种基于树状结构的监督学习模型,常用于分类和回归任务。它的基本思想是通过一系列问题的分层次判断,将数据分割成越来越小的子集,直到达到预期的目标(如纯度较高的叶子节点,或预测值的误差足够小)。决策树的节点表示判断条件,分支表示不同的条件结果,最终的叶子节点对应具体的分类结果或预测值。
武子康
20 天前
大数据
·
人工智能
·
决策树
·
机器学习
·
数据挖掘
·
scikit-learn
·
sklearn
大数据-202 数据挖掘 机器学习理论 - 决策树 sklearn 绘制决策树 防止过拟合
上节我们完成了如下的内容:criterion 这个参数使用来决定不纯度的计算方法,sklearn提供了两种选择:
武子康
22 天前
大数据
·
人工智能
·
python
·
机器学习
·
数据挖掘
·
scikit-learn
大数据-197 数据挖掘 机器学习理论 - scikit-learn 泛化能力 交叉验证
上节我们完成了如下的内容:确定了 K 之后,我们还能够发现一件事情,每次运行的时候学习曲线都在变化,模型的效果有时好有时坏,这是为什么? 实际上,这都是由于【训练集】和【测试集】的划分不同造成的,模型每次都使用不同的训练集进行训练,不同的测试集进行测试,自然也就有不同的结果。 在业务中,我们训练数据往往都是以往已经有的历史数据,但我们的测试数据却是新进入系统的数据,我们追求模型的效果,但是追求的是模型在未知数据集上的效果,在陌生的数据集上表现的能力被称为泛化能力,即我们追求的是模型的泛化能力。
开出南方的花
1 个月前
人工智能
·
算法
·
机器学习
·
scikit-learn
·
1024程序员节
·
combiner
机器学习与金融风控项目篇-day04-卡方分箱案例与模型的可解释性
Toad 是专为工业界模型开发设计的Python工具包,特别针对评分卡的开发Toad 的功能覆盖了建模全流程,从EDA、特征工程、特征筛选到模型验证和评分卡转化
提笔惊蚂蚁
1 个月前
人工智能
·
python
·
算法
·
机器学习
·
回归
·
逻辑回归
·
scikit-learn
机器学习_使用逻辑回归进行良/恶性乳腺癌肿瘤预测(附数据集下载链接, 长期有效)
关于代码中导入的模块, 个人更建议把导入的各个模块放在代码最前面, 有利于后期封装函数当然, 对于新手来说, 我的建议是模块在使用的时候导入, 这样学习的印象更深刻,