技术栈
sklearn
jie*
4 天前
人工智能
·
python
·
机器学习
·
支持向量机
·
回归
·
聚类
·
sklearn
小杰机器学习(nine)——支持向量机
1.支持向量机是一种二类分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;
jie*
5 天前
大数据
·
人工智能
·
机器学习
·
tensorflow
·
逻辑回归
·
数据库架构
·
sklearn
小杰机器学习高级(two)——极大似然估计、交叉熵损失函数
从以下3个方面对激活函数及其导数进行介绍 1.极大似然估计与交叉熵损失函数算法理论讲解 2.编程实例与步骤 3.实验现象 上面这3方面的内容,让大家,掌握并理解极大似然估计与交叉熵损失函数。 1. 极大似然估计与交叉熵损失函数算法理论 交叉熵损失函数是独立于我们的MSE(均方差损失函数)。 交叉熵损失函数是另一种损失函数。MSE损失函数和交叉熵损失函数它们的应用场合是不一样的。 均方差损失函数主要应用在回归、拟合领域。(eg:有一些点用直线拟合它,或者用曲线去拟合)。 交叉熵损失函数主要应用在分类领域?
reasonsummer
6 天前
人工智能
·
python
·
sklearn
【办公类-109-05】20250923插班生圆牌卡片改良01:一人2个圆牌(接送卡&被子卡&床卡&入园卡_word编辑单面)
背景需求:全套资料打印后续我还要做一个插班生专用备份,一页包括两个圆牌、两个竖版长方、两个竖版长方卡,便于教师只修改这个,打印在一页上
B站_计算机毕业设计之家
6 天前
大数据
·
爬虫
·
python
·
机器学习
·
数据采集
·
sklearn
·
房源
✅ Python房源数据采集+分析+预测平台 requests爬虫+sklearn回归 大数据实战项目(建议收藏)机器学习(附源码)
博主介绍:✌全网粉丝50W+,前互联网大厂软件研发、集结硕博英豪成立软件开发工作室,专注于计算机相关专业项目实战6年之久,累计开发项目作品上万套。凭借丰富的经验与专业实力,已帮助成千上万的学生顺利毕业,选择我们,就是选择放心、选择安心毕业✌ > 🍅想要获取完整文章或者源码,或者代做,拉到文章底部即可与我联系了。🍅
悟乙己
16 天前
数据挖掘
·
回归
·
sklearn
·
保序回归
保序回归Isotonic Regression的sklearn实现案例
本篇文章Back to Basics: Isotonic Regression in Sklearn适合初学者了解等距回归。文章的亮点在于它能够强制模型输出保持单调性,适用于需要遵循单调业务规则的场景,如收入与风险评分的关系。
非门由也
19 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——数据预处理》类别特征编码
在机器学习中,许多算法无法直接处理字符串形式的类别特征(如“男”、“女”、“红色”、“蓝色”等),需要将其转换为数值形式。sklearn.preprocessing 模块提供了多种类别特征编码方法,以下是常用编码器的详细介绍。
非门由也
20 天前
机器学习
·
回归
·
sklearn
《sklearn机器学习——回归指标2》
mean_squared_log_error函数计算与平方(二次方)对数误差或损失的期望值相一致的风险指标。
非门由也
20 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——特征提取》
在 sklearn.feature_extraction 模块中,DictVectorizer 是从字典(dict)中加载和提取特征的核心工具。它主要用于将包含特征名称和值的 Python 字典列表转换为机器学习算法所需的数值型数组或稀疏矩阵。
非门由也
21 天前
机器学习
·
回归
·
sklearn
《sklearn机器学习——管道和复合估计器》回归中转换目标
在 scikit-learn(sklearn)中,回归任务的目标变量(target variable,通常记为 y)有时需要进行数学变换,以满足模型假设(如线性回归要求残差正态分布)、改善模型性能、或使数据更适合特定算法。sklearn 提供了多种工具来实现目标变量的转换和逆转换。
非门由也
21 天前
机器学习
·
回归
·
sklearn
《sklearn机器学习——回归指标1》
skearn.metrics模块实现一些损失函数,评分,并且应用函数去测度回归标签。其中一些已经改进,可以处理多指标案例:mean_squared_error,mean_absolute_error,explained_variance_score和r2_score。
非门由也
22 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——管道和复合估计器》联合特征(FeatureUnion)
FeatureUnion 是 scikit-learn 中的一个工具,用于并行地组合多个特征提取器的输出。它允许你将不同的特征提取方法(如文本向量化、数值特征缩放、自定义特征工程等)的结果**横向拼接(concatenate)**成一个更大的特征矩阵。
非门由也
22 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——管道和复合估算器》异构数据的列转换器
在实际的机器学习项目中,数据集往往包含多种类型的数据列:数值型(如年龄、收入)、类别型(如性别、城市)、文本型(如评论、描述),甚至可能还有日期、图像路径等。这些不同类型的列需要不同的预处理方式:
非门由也
22 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——管道和复合估算器》可视化复合估计器
在 Jupyter Notebook 或支持 HTML 渲染的环境中(如 VSCode Jupyter 插件、Google Colab、JupyterLab),当你直接在单元格中输入一个 sklearn 估算器对象并运行时(或使用 display(estimator)),默认情况下它只会显示一个文本字符串,比如:
非门由也
22 天前
机器学习
·
聚类
·
sklearn
《sklearn机器学习——聚类性能指标》Fowlkes-Mallows 得分
Fowlkes-Mallows (FM) 得分是一种用于评估聚类算法性能的外部指标,它衡量的是聚类结果与某个参考模型(通常是真实标签)之间的一致性。该指标特别适用于需要将聚类结果与已知类别进行比较的场景。
非门由也
23 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——绘制分数以评估模型》验证曲线、学习曲线
每一个估计器都有其优势和劣势。它的泛化误差可以分解为偏差、方差和噪声。估计器的偏差是不同训练集的平均误差。估计器的方差表示对不同训练集,模型的敏感度。噪声是数据的特质。
非门由也
23 天前
机器学习
·
聚类
·
sklearn
《sklearn机器学习——聚类性能指标》Silhouette 系数
轮廓系数(Silhouette Coefficient)是一种用于评估聚类算法性能的内部指标,它不需要真实的类别标签,仅根据数据本身的聚类结果来衡量聚类的质量。该指标能够同时反映聚类的凝聚度(Cohesion,簇内紧密性)和分离度(Separation,簇间分离性)。
非门由也
24 天前
人工智能
·
机器学习
·
sklearn
《sklearn机器学习——多标签排序指标》
在多标签的机器学习中,每个样本可以有很多与之相关联的真实标签。目标是提供高的评分和较好的真实值排名。coverage_error函数计算必须包含在最中预测的标签的平均数量,以预测所有真实的标签。如果想知道高分数标签的个数,需要可以预测不缺少任何真实标签的平均值。因此,该指标的最佳值是真实标签的平均值。
非门由也
24 天前
机器学习
·
聚类
·
sklearn
《sklearn机器学习——聚类性能指数》同质性,完整性和 V-measure
给定一组样本的真实标签 CCC 和预测的聚类标签 KKK,同质性的计算基于条件熵的概念:H(C∣K)=−∑k∈K∑c∈C∣ck∣nlog(∣ck∣∣k∣) H(C|K) = -\sum_{k \in K} \sum_{c \in C} \frac{|c_k|}{n} \log \left( \frac{|c_k|}{|k|} \right) H(C∣K)=−k∈K∑c∈C∑n∣ck∣log(∣k∣∣ck∣)
非门由也
24 天前
机器学习
·
聚类
·
sklearn
《sklearn机器学习——聚类性能指标》调整兰德指数、基于互信息(mutual information)的得分
评估聚类算法的性能并不像统计错误数量或计算监督分类算法的准确率和召回率那么简单。特别是任何度量指标不应考虑簇标签的绝对值,而是如果这个聚类方式分离的数据类似与一些真实类或满足某些假设,这样在同于一个相似性度量下,属于同一个类内的成员比不同类的成员更加类似。
THMAIL
25 天前
人工智能
·
python
·
算法
·
随机森林
·
机器学习
·
集成学习
·
sklearn
机器学习从入门到精通 - 集成学习核武器:随机森林与XGBoost工业级应用
记得我第一次接触集成学习,盯着那一堆决策树发懵 —— 这玩意儿怎么就能比单个模型强那么多?直到在真实业务数据上栽了跟头才明白,模型的世界里孤胆英雄往往走不远。今天咱们就掰开揉碎了聊聊集成学习里的两员悍将:随机森林和XGBoost。我敢拍胸脯说,这俩家伙在工业界的地位,堪比车间里的万能扳手。这篇长文会带你从原理到代码,从调参到避坑,彻底搞懂它们怎么把预测精度拉满。对了,还有个细节 —— 我会把那些深夜debug才发现的坑点全抖出来,省得你重蹈覆辙。