sklearn

矿物分类案列（一）六种方法对数据的填充目录矿物数据项目介绍：数据问题与处理方案：数据填充策略讨论：模型选择与任务类型：模型训练计划：一.数据集填充

机器学习03-sklearn模型评估指标与knn算法回顾使用sklearn库进行及其学习的步骤：先获取数据集，再进行数据处理，如果遇到不是机器语言的数据，需要通过特征工程处理，包括特征降维等，最后使用估计器进行机器学习（也可以看作是训练模型的过程即fit操作）。对sklearn模型的评估指标就是用来验证模型性能的一些内容，比如准确率、召回率、混淆矩阵等，这也是本节的主要内容。开发者就可以根据这些指标更加直观的了解模型的性能情况。本节也会学习knn算法，即k近邻算法。

scikit-learn/sklearn学习|岭回归解读前序学习进程中，对用scikit-learn表达线性回归进行了初步解读。线性回归能够将因变量 y y y表达成由自变量 x x x、线性系数矩阵 w w w和截距 b b b组成的线性函数式： y = ∑ i = 1 n w i ⋅ x i + b = w T x + b y=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+b y=i=1∑nwi⋅xi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系，所以需要对线性关系式进行修正，这个时候就可以考虑岭回归。

机器学习 TF-IDF提取关键词，从原理到实践的文本特征提取利器目录机器学习中的 TF-IDF：从原理到实践的文本特征提取利器一.TF-IDF算法介绍二、TF-IDF 的核心原理

加密流量论文复现：《Detecting DNS over HTTPS based data exfiltration》(上)本文将以我个人的理解去阅读该篇流量加密论文，并在下一篇尽力对其中的实验部分进行复现。话不多说，先从论文开始着手。

weixin_46407807

机器学习sklearn：编码、哑变量、二值化和分段就是转换为数值类型方便机器学习模型处理这里举例将Survived这一行的数据转换为编码，原本是字符串类型

机器学习集成学习之随机森林目录随机森林：从原理到实战，一文读懂这个 "万能" 机器学习模型一、随机森林：不止是 "很多树" 的森林

06 基于sklearn的机械学习-欠拟合、过拟合、正则化、逻辑回归目录欠拟合、过拟合欠拟合过拟合正则化岭回归（Ridge Regression）：L2 正则化拉索回归（Lasso Regression）：L1 正则化

weixin_46407807

机器学习sklearn：过滤不是每个特征都有用，尽量挑出更有用的来节约计算资源假设最开始数据是有很多个特征的数据集使用方差过滤特征值在下降

weixin_46407807

机器学习sklearn：降维维度降低方便计算，反降维是不完全可逆的，可以消除噪声（跟机器视觉里面的处理很像）使用花的数据没降维前降维：

weixin_46407807

机器学习sklearn:支持向量机svm概述：现在就只知道这个svm可以画出决策边界，对数据的划分。简单举例就是：好的和坏的数据分开，中间的再验证

01 基于sklearn的机械学习-机械学习的分类、sklearn的安装、sklearn数据集及数据集的划分、特征工程(特征提取与无量纲化、特征降维)机器学习（Machine Learning, ML）是人工智能（AI）的核心分支之一，其核心思想是让计算机通过对数据的学习，自动发现规律、改进性能，并用于解决预测、决策、模式识别等问题。与传统编程 “手动编写规则” 不同，机器学习通过算法从数据中 “自主学习” 规律，实现对未知数据的有效处理。

02 基于sklearn的机械学习-KNN算法、模型选择与调优（交叉验证、朴素贝叶斯算法、拉普拉斯平滑）、决策树（信息增益、基尼指数）、随机森林在机器学习中，样本距离是衡量数据点之间相似性或差异性的核心概念，广泛应用于分类、聚类、降维等算法中。最常见的两点或多点之间的距离表示方法，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

weixin_46407807

机器学习sklearn:聚类分成聚合和分类，无监督学习。相似的为一类可以方便地对图像进行压缩--这里KMeans中的labels_和fit_predict是等效的，毕竟都是那些数据生成的

weixin_46407807

机器学习sklearn：处理缺失值方案一、使用SimpleImputer可以看到有的数据有缺失：Age填入后：Embarked填入众数后：

基于 OpenCV 与 sklearn 的数字识别：KNN 算法实践在计算机视觉领域，数字识别是一个经典问题，广泛应用于邮政编码识别、车牌识别等场景。本文将介绍如何使用 OpenCV 进行图像处理，并结合 KNN（K 近邻）算法实现数字识别，同时对比 OpenCV 内置 KNN 与 scikit-learn 库中 KNN 的实现差异。

天天找自己

初始sklearn 数据集获取、分类、划分与特征工程在机器学习项目中，高质量的数据处理流程是模型成功的基石。sklearn 提供了一整套高效工具链，助你轻松完成数据准备的核心步骤。

逻辑回归算法基础介绍，简单的二分类三分类实例目录逻辑回归：从原理到实践，详解这个 "名不副实" 的分类神器一、逻辑回归是什么？为什么叫 "回归" 却做分类？

【机器学习-4】 | 集成学习 / 随机森林篇本文将系统介绍Bagging、Boosting两种集成学习方法及随机森林算法，涵盖其原理、过程、参数等内容。通过学习，你能理解两种方法的区别，掌握随机森林的随机含义、算法步骤、优点及关键参数使用，明确各知识点的逻辑关联，本篇将主要围绕原理方面展开，下篇文章再具体用一个项目来加深巩固本文提到的随机森林算法。

weixin_46407807

机器学习sklearn：决策树的参数、属性、接口决策树有八个参数：Criterion，两个随机性相关的参数（random_state，splitter），五个剪枝参数（max_depth, min_samples_split，min_samples_leaf，max_feature，min_impurity_decrease）一个属性：feature_importances_ 四个接口：fit，score，apply，predict