【漫话机器学习系列】178.多元逻辑回归(Multinomial Logistic Regression)

多元逻辑回归(Multinomial Logistic Regression)详解

1. 引言

在机器学习和统计建模中,分类问题是一类常见的任务,尤其是多分类问题(multi-class classification)。当需要对一个数据点归类到多个类别之一时,普通的逻辑回归(Logistic Regression)已经无法满足需求,而 多元逻辑回归(Multinomial Logistic Regression,简称 MLR) 就是一种扩展后的方法,可以有效地处理这类问题。

本文将从以下几个方面详细介绍多元逻辑回归:

  • 逻辑回归的基本概念

  • 多元逻辑回归的数学公式

  • Softmax 函数的作用

  • 训练和优化方法

  • 现实中的应用场景


2. 逻辑回归的基本概念

逻辑回归是一种用于 二分类(binary classification)的算法,它的核心思想是:

  • 通过线性回归计算一个得分(logits)。

  • 使用 sigmoid 函数(logistic 函数)将得分映射到 (0,1) 之间,解释为属于某个类别的概率。

  • 选择概率最大的类别作为最终的分类结果。

其数学公式如下:

但是,这个公式只适用于二分类问题(0 或 1)。当类别数大于 2 时,逻辑回归需要扩展,即多元逻辑回归。


3. 多元逻辑回归的数学原理

对于多分类问题 (如手写数字识别:0-9 共 10 个类别),二分类的 sigmoid 函数不再适用,需要用 Softmax 函数 进行归一化,使所有类别的概率和为 1。

多元逻辑回归的基本公式为:

其中:

  • ​ 是第 i 个样本的类别标签。

  • k 代表第 k 类。

  • X 是特征向量。

  • 是与第 k 类对应的权重向量。

  • 分子 计算的是第 k 类的未归一化概率(logits)。

  • 分母是对所有类别的指数进行归一化,确保概率总和为 1。

这一公式的核心就是 Softmax 函数,它可以看作是 sigmoid 在多分类问题上的推广。


4. Softmax 函数的作用

Softmax 函数的作用是:

  • 将不同类别的 logits 转换为概率值。

  • 确保所有类别的概率总和为 1。

  • 使得 logits 之间的相对大小决定最终的分类结果。

数学表达式:

Softmax 的核心特性:

  • 如果一个类别的 logits 远大于其他类别,它的概率会接近 1,其他类别接近 0。

  • 适用于互斥类别的多分类问题(例如,猫、狗、鸟必须属于其中之一)。


5. 训练与优化

训练多元逻辑回归模型的目标是 最大化对数似然函数(Maximum Likelihood Estimation, MLE),即:

其中:

  • 是指示函数,若第 i 个样本属于第 k 类,则取值 1,否则为 0。

5.1 损失函数

通常使用 交叉熵损失函数(Cross-Entropy Loss)

5.2 优化方法

由于损失函数是 凸函数,可以使用梯度下降(Gradient Descent)或更高级的方法(如 Adam、LBFGS)进行优化:

  • 梯度下降(Gradient Descent)

    • 计算损失函数对参数 β\betaβ 的梯度。

    • 逐步调整参数以最小化损失。

  • 随机梯度下降(SGD)

    • 在大规模数据集上表现更佳,每次仅用部分数据进行参数更新。
  • Adam 优化器

    • 结合了动量和自适应学习率,在实际应用中效果较好。

6. 现实应用

6.1 自然语言处理(NLP)

  • 文本分类(如垃圾邮件检测)

  • 情感分析(正面/负面/中性)

  • 命名实体识别(NER)(如人名、地名、组织名)

6.2 计算机视觉(CV)

  • 手写数字识别(MNIST 数据集)

  • 图像分类(如猫、狗、鸟分类)

6.3 医学诊断

  • 疾病分类(根据症状判断是流感、肺炎还是普通感冒)

6.4 营销预测

  • 用户行为分类(预测客户会选择哪种产品)

7. 结论

多元逻辑回归是逻辑回归的扩展 ,用于处理多分类问题 。它使用 Softmax 函数 替代 sigmoid,并使用交叉熵损失进行优化。由于其解释性强、计算成本低,在 NLP、CV、医学、金融等领域广泛应用。

与深度学习方法(如 CNN、Transformer)相比,多元逻辑回归适用于数据量小、计算资源有限的情况。当数据复杂度增加时,可以结合深度神经网络(如 Softmax 层 + CNN)进行优化。


8. 参考

  • Christopher M. Bishop. Pattern Recognition and Machine Learning.

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.

  • Andrew Ng, Machine Learning Stanford Course.

相关推荐
果冻人工智能36 分钟前
如何对LLM大型语言模型进行评估与基准测试
人工智能
摆烂仙君1 小时前
基于α-β剪枝的含禁手AI五子棋
人工智能·机器学习·剪枝
weixin_445238121 小时前
Pytorch|RNN-心脏病预测
人工智能·pytorch·rnn
fantasy_42 小时前
LLM-大语言模型浅谈
人工智能·ai·语言模型·deep learning
嘻嘻哈哈开森2 小时前
从零开始学习模型蒸馏
人工智能·后端
Thomas_Cai2 小时前
Bert论文解析
人工智能·深度学习·nlp·bert·transformer
量子位2 小时前
Llama 4 发布 36 小时差评如潮!匿名员工爆料拒绝署名技术报告
人工智能·llama
HCZJNB2 小时前
泓川证券|外骨骼机器人落地场景丰富 市场空间广阔
人工智能·机器人
量子位2 小时前
LIama 4 发布重夺开源第一!DeepSeek 同等代码能力但参数减一半,一张 H100 就能跑,还有两万亿参数超大杯
人工智能·deepseek
量子位2 小时前
米哈游蔡浩宇新作 iPhone 实机演示:10 分钟就被 AI 小美撩到脸红,她的命运由我拯救
人工智能·aigc