【漫话机器学习系列】178.多元逻辑回归(Multinomial Logistic Regression)

多元逻辑回归(Multinomial Logistic Regression)详解

1. 引言

在机器学习和统计建模中,分类问题是一类常见的任务,尤其是多分类问题(multi-class classification)。当需要对一个数据点归类到多个类别之一时,普通的逻辑回归(Logistic Regression)已经无法满足需求,而 多元逻辑回归(Multinomial Logistic Regression,简称 MLR) 就是一种扩展后的方法,可以有效地处理这类问题。

本文将从以下几个方面详细介绍多元逻辑回归:

  • 逻辑回归的基本概念

  • 多元逻辑回归的数学公式

  • Softmax 函数的作用

  • 训练和优化方法

  • 现实中的应用场景


2. 逻辑回归的基本概念

逻辑回归是一种用于 二分类(binary classification)的算法,它的核心思想是:

  • 通过线性回归计算一个得分(logits)。

  • 使用 sigmoid 函数(logistic 函数)将得分映射到 (0,1) 之间,解释为属于某个类别的概率。

  • 选择概率最大的类别作为最终的分类结果。

其数学公式如下:

但是,这个公式只适用于二分类问题(0 或 1)。当类别数大于 2 时,逻辑回归需要扩展,即多元逻辑回归。


3. 多元逻辑回归的数学原理

对于多分类问题 (如手写数字识别:0-9 共 10 个类别),二分类的 sigmoid 函数不再适用,需要用 Softmax 函数 进行归一化,使所有类别的概率和为 1。

多元逻辑回归的基本公式为:

其中:

  • ​ 是第 i 个样本的类别标签。

  • k 代表第 k 类。

  • X 是特征向量。

  • 是与第 k 类对应的权重向量。

  • 分子 计算的是第 k 类的未归一化概率(logits)。

  • 分母是对所有类别的指数进行归一化,确保概率总和为 1。

这一公式的核心就是 Softmax 函数,它可以看作是 sigmoid 在多分类问题上的推广。


4. Softmax 函数的作用

Softmax 函数的作用是:

  • 将不同类别的 logits 转换为概率值。

  • 确保所有类别的概率总和为 1。

  • 使得 logits 之间的相对大小决定最终的分类结果。

数学表达式:

Softmax 的核心特性:

  • 如果一个类别的 logits 远大于其他类别,它的概率会接近 1,其他类别接近 0。

  • 适用于互斥类别的多分类问题(例如,猫、狗、鸟必须属于其中之一)。


5. 训练与优化

训练多元逻辑回归模型的目标是 最大化对数似然函数(Maximum Likelihood Estimation, MLE),即:

其中:

  • 是指示函数,若第 i 个样本属于第 k 类,则取值 1,否则为 0。

5.1 损失函数

通常使用 交叉熵损失函数(Cross-Entropy Loss)

5.2 优化方法

由于损失函数是 凸函数,可以使用梯度下降(Gradient Descent)或更高级的方法(如 Adam、LBFGS)进行优化:

  • 梯度下降(Gradient Descent)

    • 计算损失函数对参数 β\betaβ 的梯度。

    • 逐步调整参数以最小化损失。

  • 随机梯度下降(SGD)

    • 在大规模数据集上表现更佳,每次仅用部分数据进行参数更新。
  • Adam 优化器

    • 结合了动量和自适应学习率,在实际应用中效果较好。

6. 现实应用

6.1 自然语言处理(NLP)

  • 文本分类(如垃圾邮件检测)

  • 情感分析(正面/负面/中性)

  • 命名实体识别(NER)(如人名、地名、组织名)

6.2 计算机视觉(CV)

  • 手写数字识别(MNIST 数据集)

  • 图像分类(如猫、狗、鸟分类)

6.3 医学诊断

  • 疾病分类(根据症状判断是流感、肺炎还是普通感冒)

6.4 营销预测

  • 用户行为分类(预测客户会选择哪种产品)

7. 结论

多元逻辑回归是逻辑回归的扩展 ,用于处理多分类问题 。它使用 Softmax 函数 替代 sigmoid,并使用交叉熵损失进行优化。由于其解释性强、计算成本低,在 NLP、CV、医学、金融等领域广泛应用。

与深度学习方法(如 CNN、Transformer)相比,多元逻辑回归适用于数据量小、计算资源有限的情况。当数据复杂度增加时,可以结合深度神经网络(如 Softmax 层 + CNN)进行优化。


8. 参考

  • Christopher M. Bishop. Pattern Recognition and Machine Learning.

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.

  • Andrew Ng, Machine Learning Stanford Course.

相关推荐
深空数字孪生1 分钟前
储能调峰新实践:智慧能源平台如何保障风电消纳与电网稳定?
大数据·人工智能·物联网
wan5555cn6 分钟前
多张图片生成视频模型技术深度解析
人工智能·笔记·深度学习·算法·音视频
格林威1 小时前
机器视觉检测的光源基础知识及光源选型
人工智能·深度学习·数码相机·yolo·计算机视觉·视觉检测
今天也要学习吖2 小时前
谷歌nano banana官方Prompt模板发布,解锁六大图像生成风格
人工智能·学习·ai·prompt·nano banana·谷歌ai
Hello123网站2 小时前
glean-企业级AI搜索和知识发现平台
人工智能·产品运营·ai工具
AKAMAI2 小时前
Queue-it 为数十亿用户增强在线体验
人工智能·云原生·云计算
索迪迈科技2 小时前
INDEMIND亮相2025科技创变者大会,以机器人空间智能技术解锁具身智能新边界
人工智能·机器人·扫地机器人·空间智能·陪伴机器人
栒U2 小时前
一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)
人工智能·macos·vllm
沫儿笙2 小时前
FANUC发那科焊接机器人铝材焊接节气
人工智能·机器人
THMAIL3 小时前
量化股票从贫穷到财务自由之路 - 零基础搭建Python量化环境:Anaconda、Jupyter实战指南
linux·人工智能·python·深度学习·机器学习·金融