sklearn

非门由也12 分钟前
人工智能·机器学习·sklearn
《sklearn机器学习——特征提取》在 sklearn.feature_extraction 模块中,DictVectorizer 是从字典(dict)中加载和提取特征的核心工具。它主要用于将包含特征名称和值的 Python 字典列表转换为机器学习算法所需的数值型数组或稀疏矩阵。
非门由也8 小时前
机器学习·回归·sklearn
《sklearn机器学习——管道和复合估计器》回归中转换目标在 scikit-learn(sklearn)中,回归任务的目标变量(target variable,通常记为 y)有时需要进行数学变换,以满足模型假设(如线性回归要求残差正态分布)、改善模型性能、或使数据更适合特定算法。sklearn 提供了多种工具来实现目标变量的转换和逆转换。
非门由也14 小时前
机器学习·回归·sklearn
《sklearn机器学习——回归指标1》skearn.metrics模块实现一些损失函数,评分,并且应用函数去测度回归标签。其中一些已经改进,可以处理多指标案例:mean_squared_error,mean_absolute_error,explained_variance_score和r2_score。
非门由也1 天前
人工智能·机器学习·sklearn
《sklearn机器学习——管道和复合估计器》联合特征(FeatureUnion)FeatureUnion 是 scikit-learn 中的一个工具,用于并行地组合多个特征提取器的输出。它允许你将不同的特征提取方法(如文本向量化、数值特征缩放、自定义特征工程等)的结果**横向拼接(concatenate)**成一个更大的特征矩阵。
非门由也1 天前
人工智能·机器学习·sklearn
《sklearn机器学习——管道和复合估算器》异构数据的列转换器在实际的机器学习项目中,数据集往往包含多种类型的数据列:数值型(如年龄、收入)、类别型(如性别、城市)、文本型(如评论、描述),甚至可能还有日期、图像路径等。这些不同类型的列需要不同的预处理方式:
非门由也2 天前
人工智能·机器学习·sklearn
《sklearn机器学习——管道和复合估算器》可视化复合估计器在 Jupyter Notebook 或支持 HTML 渲染的环境中(如 VSCode Jupyter 插件、Google Colab、JupyterLab),当你直接在单元格中输入一个 sklearn 估算器对象并运行时(或使用 display(estimator)),默认情况下它只会显示一个文本字符串,比如:
非门由也2 天前
机器学习·聚类·sklearn
《sklearn机器学习——聚类性能指标》Fowlkes-Mallows 得分Fowlkes-Mallows (FM) 得分是一种用于评估聚类算法性能的外部指标,它衡量的是聚类结果与某个参考模型(通常是真实标签)之间的一致性。该指标特别适用于需要将聚类结果与已知类别进行比较的场景。
非门由也2 天前
人工智能·机器学习·sklearn
《sklearn机器学习——绘制分数以评估模型》验证曲线、学习曲线每一个估计器都有其优势和劣势。它的泛化误差可以分解为偏差、方差和噪声。估计器的偏差是不同训练集的平均误差。估计器的方差表示对不同训练集,模型的敏感度。噪声是数据的特质。
非门由也3 天前
机器学习·聚类·sklearn
《sklearn机器学习——聚类性能指标》Silhouette 系数轮廓系数(Silhouette Coefficient)是一种用于评估聚类算法性能的内部指标,它不需要真实的类别标签,仅根据数据本身的聚类结果来衡量聚类的质量。该指标能够同时反映聚类的凝聚度(Cohesion,簇内紧密性)和分离度(Separation,簇间分离性)。
非门由也4 天前
人工智能·机器学习·sklearn
《sklearn机器学习——多标签排序指标》在多标签的机器学习中,每个样本可以有很多与之相关联的真实标签。目标是提供高的评分和较好的真实值排名。coverage_error函数计算必须包含在最中预测的标签的平均数量,以预测所有真实的标签。如果想知道高分数标签的个数,需要可以预测不缺少任何真实标签的平均值。因此,该指标的最佳值是真实标签的平均值。
非门由也4 天前
机器学习·聚类·sklearn
《sklearn机器学习——聚类性能指数》同质性,完整性和 V-measure给定一组样本的真实标签 CCC 和预测的聚类标签 KKK,同质性的计算基于条件熵的概念:H(C∣K)=−∑k∈K∑c∈C∣ck∣nlog⁡(∣ck∣∣k∣) H(C|K) = -\sum_{k \in K} \sum_{c \in C} \frac{|c_k|}{n} \log \left( \frac{|c_k|}{|k|} \right) H(C∣K)=−k∈K∑c∈C∑n∣ck∣log(∣k∣∣ck∣)
非门由也4 天前
机器学习·聚类·sklearn
《sklearn机器学习——聚类性能指标》调整兰德指数、基于互信息(mutual information)的得分评估聚类算法的性能并不像统计错误数量或计算监督分类算法的准确率和召回率那么简单。特别是任何度量指标不应考虑簇标签的绝对值,而是如果这个聚类方式分离的数据类似与一些真实类或满足某些假设,这样在同于一个相似性度量下,属于同一个类内的成员比不同类的成员更加类似。
THMAIL4 天前
人工智能·python·算法·随机森林·机器学习·集成学习·sklearn
机器学习从入门到精通 - 集成学习核武器:随机森林与XGBoost工业级应用记得我第一次接触集成学习,盯着那一堆决策树发懵 —— 这玩意儿怎么就能比单个模型强那么多?直到在真实业务数据上栽了跟头才明白,模型的世界里孤胆英雄往往走不远。今天咱们就掰开揉碎了聊聊集成学习里的两员悍将:随机森林和XGBoost。我敢拍胸脯说,这俩家伙在工业界的地位,堪比车间里的万能扳手。这篇长文会带你从原理到代码,从调参到避坑,彻底搞懂它们怎么把预测精度拉满。对了,还有个细节 —— 我会把那些深夜debug才发现的坑点全抖出来,省得你重蹈覆辙。
THMAIL10 天前
人工智能·算法·决策树·随机森林·分类·bootstrap·sklearn
随机森林的 “Bootstrap 采样” 与 “特征随机选择”:如何避免过拟合?(附分类 / 回归任务实战)在机器学习的旅程中,我们常常会遇到一个“敌人”——过拟合(Overfitting)。想象一个学生,他只会死记硬背老师划定的考试范围和标准答案。在模拟考试(训练数据)中,他总能考满分,因为题目一模一样。可一旦到了正式考场(测试数据),题目稍微变换一下形式,他就束手无策,成绩一落千丈。
AI_RSER19 天前
python·算法·机器学习·支持向量机·分类·sklearn
遥感&机器学习入门实战教程|Sklearn 案例④ :多分类器对比(SVM / RF / kNN / Logistic...)在前几篇文章中,我们已经学习了 无泄露 PCA 的降维流程,以及如何在单个分类器上实现整图预测。今天我们进一步扩展:
赴33522 天前
人工智能·python·机器学习·分类·数据挖掘·sklearn·矿物分类
矿物分类案列 (一)六种方法对数据的填充目录矿物数据项目介绍:数据问题与处理方案:数据填充策略讨论:模型选择与任务类型:模型训练计划:一.数据集填充
ABCDnnie25 天前
人工智能·机器学习·sklearn
机器学习03-sklearn模型评估指标与knn算法回顾使用sklearn库进行及其学习的步骤:先获取数据集,再进行数据处理,如果遇到不是机器语言的数据,需要通过特征工程处理,包括特征降维等,最后使用估计器进行机器学习(也可以看作是训练模型的过程即fit操作)。对sklearn模型的评估指标就是用来验证模型性能的一些内容,比如准确率、召回率、混淆矩阵等,这也是本节的主要内容。开发者就可以根据这些指标更加直观的了解模型的性能情况。本节也会学习knn算法,即k近邻算法。
西猫雷婶1 个月前
开发语言·人工智能·机器学习·支持向量机·回归·scikit-learn·sklearn
scikit-learn/sklearn学习|岭回归解读前序学习进程中,对用scikit-learn表达线性回归进行了初步解读。 线性回归能够将因变量 y y y表达成由自变量 x x x、线性系数矩阵 w w w和截距 b b b组成的线性函数式: y = ∑ i = 1 n w i ⋅ x i + b = w T x + b y=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+b y=i=1∑nwi⋅xi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系,所以需要对线性关系式进行修正,这个时候就可以考虑岭回归。
赴3351 个月前
人工智能·机器学习·tf-idf·sklearn
机器学习 TF-IDF提取关键词,从原理到实践的文本特征提取利器目录机器学习中的 TF-IDF:从原理到实践的文本特征提取利器一.TF-IDF算法介绍二、TF-IDF 的核心原理
大不点wow1 个月前
机器学习·网络安全·sklearn
加密流量论文复现:《Detecting DNS over HTTPS based data exfiltration》(上)本文将以我个人的理解去阅读该篇流量加密论文,并在下一篇尽力对其中的实验部分进行复现。话不多说,先从论文开始着手。