系列文章目录
第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)
第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)
第五章【机器学习】【监督学习】- 决策树 (Decision Trees)
第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)
第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)
第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)
第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)
十三、【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)
十四、【机器学习】【监督学习】- 弹性网回归 (Elastic Net Regression)
十七、【机器学习】【非监督学习】- K-均值 (K-Means)
十八、【机器学习】【非监督学习】- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)十九、【机器学习】【非监督学习】- 层次聚类 (Hierarchical Clustering)二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)
二十一、【机器学习】【非监督学习】- 谱聚类 (Spectral Clustering)
目录
[二、 Bayesian Logistic Regression](#二、 Bayesian Logistic Regression)
一、基本定义
(一)、监督学习
监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法"学习"的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。
(二)、监督学习的基本流程
数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。
(三)、监督学习分类算法(Classification)
定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。
二、 Bayesian Logistic Regression
(一)、定义
Bayesian Logistic Regression是一种统计建模方法,它结合了Logistic回归的原理和贝叶斯统计的框架。这种方法不仅估计模型参数,还通过参数的后验分布来量化不确定性,为预测提供了一个概率性的解释。
(二)、基本概念
-
Logistic回归模型:Logistic回归是一种用于分类问题的统计模型,特别是用于预测二元响应变量(如成功/失败、患病/健康等)的概率。模型的形式为:
其中 是线性预测变量,是响应变量为1(成功)的条件概率。
-
先验分布:在观察任何数据之前,对模型参数的先验信念。先验分布反映了对参数值的先验知识或假设。
-
似然函数:给定参数的情况下,数据出现的概率。在Logistic回归中,似然函数通常基于伯努利分布,因为响应变量是二元的。
-
后验分布:在考虑了先验知识和观测数据后,模型参数的概率分布。后验分布是Bayesian Logistic Regression的核心,它综合了先验知识和数据信息。
-
边际似然:也称为证据,是数据的概率,不考虑参数。在实际应用中,边际似然常被用作模型比较的标准。
(三)、训练过程
-
指定先验分布:为模型参数选择合适的先验分布,这可能基于领域知识或选择无信息先验(如均匀分布)。
-
构建似然函数:基于观测数据和模型,构造似然函数,反映数据在给定参数下的概率。
-
计算后验分布:通过将先验分布与似然函数相乘,并进行归一化处理,来计算后验分布。在复杂模型中,后验分布通常不能解析求解,因此需要使用采样方法,如马尔科夫链蒙特卡洛(MCMC)。
-
参数估计:从后验分布中抽取样本,可以得到参数的点估计(如均值或中位数),以及置信区间。
-
模型评估:使用后验预测分布来评估模型的预测能力和不确定性。
(四)、特点
- 不确定性量化:Bayesian Logistic Regression不仅提供参数估计,还提供了参数的分布,这有助于量化预测的不确定性。
- 先验知识整合:允许在模型中整合专家意见或先前研究结果。
- 灵活性:可以处理复杂的先验分布和模型结构,适合于具有高维度和复杂相互作用的模型。
(五)、适用场景
- 医疗诊断:预测疾病发生概率,考虑到患者的各种特征和历史记录。
- 市场调研:预测消费者购买行为,考虑到个人属性和社会经济因素。
- 风险管理:评估贷款违约概率,考虑到借款人的信用历史和其他财务指标。
(六)、扩展
- Hierarchical Models:允许参数在不同层次上共享,适用于具有群体结构的数据,如个体嵌套在群组中。
- Non-conjugate Priors:虽然共轭先验可以使计算变得简单,但非共轭先验可以提供更灵活的先验分布形状。
- Approximate Inference:当后验分布难以精确计算时,可以使用变分贝叶斯等近似推断方法。
三、总结
Bayesian Logistic Regression通过将贝叶斯统计的框架应用于Logistic回归,为处理分类问题提供了一种强大的、灵活的和全面的方法,尤其是在需要考虑参数不确定性的情景下。
四、相关书籍介绍
《Python机器学习算法》这本书是由赵志勇编写,由电子工业出版社出版的一本关于机器学习的入门书籍,出版时间为2017年7月。该书的特点是结合理论与实践,旨在帮助读者不仅理解机器学习算法的理论基础,而且能够动手实践,最终熟练掌握算法的应用。以下是本书的主要内容和适用读者群体的总结:
内容概览
本书分为六个主要部分:
- 基本概念:介绍监督学习、无监督学习和深度学习的基本概念。
- 分类算法:包括Logistic回归、Softmax Regression、Factorization Machine、支持向量机(SVM)、随机森林和BP神经网络等。
- 回归算法:涵盖线性回归、岭回归和CART树回归。
- 聚类算法:如K-Means、Mean Shift、DBSCAN和Label Propagation算法。
- 推荐算法:基于协同过滤、矩阵分解和基于图的推荐算法。
- 深度学习:介绍AutoEncoder和卷积神经网络(CNN)。
此外,本书还特别安排了一章来讲解算法在具体项目中的实践案例,以及附录部分介绍了Python语言、numpy库和TensorFlow框架的使用方法。
适用读者
这本书适合以下几类读者:
- 机器学习初学者:书中从算法原理出发,逐步深入,适合没有机器学习背景的读者入门。
- 具有一定项目经验的读者:书中不仅有理论介绍,还有大量实践代码,可以帮助已有一定经验的读者深化理解,提升技能。
- 对推荐系统、广告算法和深度学习感兴趣的读者:书中详细介绍了这些领域的实用算法,有助于读者在这些方向上进行深入研究。
总之,《Python机器学习算法》是一本全面介绍机器学习算法的书籍,它兼顾理论与实践,无论是对初学者还是有一定经验的读者,都能从中找到适合自己的内容。
书籍下载链接:
链接:https://pan.baidu.com/s/1ngX9yoC1HMZ2ORmHvSEtlA?pwd=0qbm
提取码:0qbm