【漫话机器学习系列】178.多元逻辑回归(Multinomial Logistic Regression)

多元逻辑回归(Multinomial Logistic Regression)详解

1. 引言

在机器学习和统计建模中,分类问题是一类常见的任务,尤其是多分类问题(multi-class classification)。当需要对一个数据点归类到多个类别之一时,普通的逻辑回归(Logistic Regression)已经无法满足需求,而 多元逻辑回归(Multinomial Logistic Regression,简称 MLR) 就是一种扩展后的方法,可以有效地处理这类问题。

本文将从以下几个方面详细介绍多元逻辑回归:

  • 逻辑回归的基本概念

  • 多元逻辑回归的数学公式

  • Softmax 函数的作用

  • 训练和优化方法

  • 现实中的应用场景


2. 逻辑回归的基本概念

逻辑回归是一种用于 二分类(binary classification)的算法,它的核心思想是:

  • 通过线性回归计算一个得分(logits)。

  • 使用 sigmoid 函数(logistic 函数)将得分映射到 (0,1) 之间,解释为属于某个类别的概率。

  • 选择概率最大的类别作为最终的分类结果。

其数学公式如下:

但是,这个公式只适用于二分类问题(0 或 1)。当类别数大于 2 时,逻辑回归需要扩展,即多元逻辑回归。


3. 多元逻辑回归的数学原理

对于多分类问题 (如手写数字识别:0-9 共 10 个类别),二分类的 sigmoid 函数不再适用,需要用 Softmax 函数 进行归一化,使所有类别的概率和为 1。

多元逻辑回归的基本公式为:

其中:

  • ​ 是第 i 个样本的类别标签。

  • k 代表第 k 类。

  • X 是特征向量。

  • 是与第 k 类对应的权重向量。

  • 分子 计算的是第 k 类的未归一化概率(logits)。

  • 分母是对所有类别的指数进行归一化,确保概率总和为 1。

这一公式的核心就是 Softmax 函数,它可以看作是 sigmoid 在多分类问题上的推广。


4. Softmax 函数的作用

Softmax 函数的作用是:

  • 将不同类别的 logits 转换为概率值。

  • 确保所有类别的概率总和为 1。

  • 使得 logits 之间的相对大小决定最终的分类结果。

数学表达式:

Softmax 的核心特性:

  • 如果一个类别的 logits 远大于其他类别,它的概率会接近 1,其他类别接近 0。

  • 适用于互斥类别的多分类问题(例如,猫、狗、鸟必须属于其中之一)。


5. 训练与优化

训练多元逻辑回归模型的目标是 最大化对数似然函数(Maximum Likelihood Estimation, MLE),即:

其中:

  • 是指示函数,若第 i 个样本属于第 k 类,则取值 1,否则为 0。

5.1 损失函数

通常使用 交叉熵损失函数(Cross-Entropy Loss)

5.2 优化方法

由于损失函数是 凸函数,可以使用梯度下降(Gradient Descent)或更高级的方法(如 Adam、LBFGS)进行优化:

  • 梯度下降(Gradient Descent)

    • 计算损失函数对参数 β\betaβ 的梯度。

    • 逐步调整参数以最小化损失。

  • 随机梯度下降(SGD)

    • 在大规模数据集上表现更佳,每次仅用部分数据进行参数更新。
  • Adam 优化器

    • 结合了动量和自适应学习率,在实际应用中效果较好。

6. 现实应用

6.1 自然语言处理(NLP)

  • 文本分类(如垃圾邮件检测)

  • 情感分析(正面/负面/中性)

  • 命名实体识别(NER)(如人名、地名、组织名)

6.2 计算机视觉(CV)

  • 手写数字识别(MNIST 数据集)

  • 图像分类(如猫、狗、鸟分类)

6.3 医学诊断

  • 疾病分类(根据症状判断是流感、肺炎还是普通感冒)

6.4 营销预测

  • 用户行为分类(预测客户会选择哪种产品)

7. 结论

多元逻辑回归是逻辑回归的扩展 ,用于处理多分类问题 。它使用 Softmax 函数 替代 sigmoid,并使用交叉熵损失进行优化。由于其解释性强、计算成本低,在 NLP、CV、医学、金融等领域广泛应用。

与深度学习方法(如 CNN、Transformer)相比,多元逻辑回归适用于数据量小、计算资源有限的情况。当数据复杂度增加时,可以结合深度神经网络(如 Softmax 层 + CNN)进行优化。


8. 参考

  • Christopher M. Bishop. Pattern Recognition and Machine Learning.

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.

  • Andrew Ng, Machine Learning Stanford Course.

相关推荐
哦哦~92111 小时前
揭示多功能合成界面,增强致密厚复合电极的机械和电化学性能
服务器·网络·人工智能
企业架构师老王11 小时前
注册审批申报材料自动校验:如何利用实在Agent构建非侵入式架构并降低数据误报率?
大数据·人工智能·ai·架构
吃鱼的灰太狼11 小时前
Hermes 全配置指南:从裸版到 AI Agent 天花板
人工智能
HoneyMoose11 小时前
Discourse 提供 AI 总结功能
人工智能
三维频道11 小时前
深度解析:3D-DIC技术如何精准表征复合材料的变形与损伤演化?
人工智能·计算机视觉·3d·全场应变测量·dic技术·新拓三维·复合材料力学表征
NebulaData11 小时前
GPT-image 2 重磅上线,Nebula Lab 带您解锁 AI 创意新可能(附提示词版)
人工智能
GISer_Jing11 小时前
Dify可视化编排:技术架构与实战指南
前端·人工智能·ai编程
李可以量化12 小时前
Python之如何做出交易日历(上)
人工智能·算法·qmt·量化 qmt ptrade
与遨游于天地12 小时前
提示词技巧一览
人工智能
羊羊小栈12 小时前
基于「YOLO目标检测 + 多模态AI分析」的智慧植物辣椒病害智能检测分析预警系统
人工智能·yolo·目标检测·计算机视觉·毕业设计·大作业