【漫话机器学习系列】178.多元逻辑回归(Multinomial Logistic Regression)

多元逻辑回归(Multinomial Logistic Regression)详解

1. 引言

在机器学习和统计建模中,分类问题是一类常见的任务,尤其是多分类问题(multi-class classification)。当需要对一个数据点归类到多个类别之一时,普通的逻辑回归(Logistic Regression)已经无法满足需求,而 多元逻辑回归(Multinomial Logistic Regression,简称 MLR) 就是一种扩展后的方法,可以有效地处理这类问题。

本文将从以下几个方面详细介绍多元逻辑回归:

  • 逻辑回归的基本概念

  • 多元逻辑回归的数学公式

  • Softmax 函数的作用

  • 训练和优化方法

  • 现实中的应用场景


2. 逻辑回归的基本概念

逻辑回归是一种用于 二分类(binary classification)的算法,它的核心思想是:

  • 通过线性回归计算一个得分(logits)。

  • 使用 sigmoid 函数(logistic 函数)将得分映射到 (0,1) 之间,解释为属于某个类别的概率。

  • 选择概率最大的类别作为最终的分类结果。

其数学公式如下:

但是,这个公式只适用于二分类问题(0 或 1)。当类别数大于 2 时,逻辑回归需要扩展,即多元逻辑回归。


3. 多元逻辑回归的数学原理

对于多分类问题 (如手写数字识别:0-9 共 10 个类别),二分类的 sigmoid 函数不再适用,需要用 Softmax 函数 进行归一化,使所有类别的概率和为 1。

多元逻辑回归的基本公式为:

其中:

  • ​ 是第 i 个样本的类别标签。

  • k 代表第 k 类。

  • X 是特征向量。

  • 是与第 k 类对应的权重向量。

  • 分子 计算的是第 k 类的未归一化概率(logits)。

  • 分母是对所有类别的指数进行归一化,确保概率总和为 1。

这一公式的核心就是 Softmax 函数,它可以看作是 sigmoid 在多分类问题上的推广。


4. Softmax 函数的作用

Softmax 函数的作用是:

  • 将不同类别的 logits 转换为概率值。

  • 确保所有类别的概率总和为 1。

  • 使得 logits 之间的相对大小决定最终的分类结果。

数学表达式:

Softmax 的核心特性:

  • 如果一个类别的 logits 远大于其他类别,它的概率会接近 1,其他类别接近 0。

  • 适用于互斥类别的多分类问题(例如,猫、狗、鸟必须属于其中之一)。


5. 训练与优化

训练多元逻辑回归模型的目标是 最大化对数似然函数(Maximum Likelihood Estimation, MLE),即:

其中:

  • 是指示函数,若第 i 个样本属于第 k 类,则取值 1,否则为 0。

5.1 损失函数

通常使用 交叉熵损失函数(Cross-Entropy Loss)

5.2 优化方法

由于损失函数是 凸函数,可以使用梯度下降(Gradient Descent)或更高级的方法(如 Adam、LBFGS)进行优化:

  • 梯度下降(Gradient Descent)

    • 计算损失函数对参数 β\betaβ 的梯度。

    • 逐步调整参数以最小化损失。

  • 随机梯度下降(SGD)

    • 在大规模数据集上表现更佳,每次仅用部分数据进行参数更新。
  • Adam 优化器

    • 结合了动量和自适应学习率,在实际应用中效果较好。

6. 现实应用

6.1 自然语言处理(NLP)

  • 文本分类(如垃圾邮件检测)

  • 情感分析(正面/负面/中性)

  • 命名实体识别(NER)(如人名、地名、组织名)

6.2 计算机视觉(CV)

  • 手写数字识别(MNIST 数据集)

  • 图像分类(如猫、狗、鸟分类)

6.3 医学诊断

  • 疾病分类(根据症状判断是流感、肺炎还是普通感冒)

6.4 营销预测

  • 用户行为分类(预测客户会选择哪种产品)

7. 结论

多元逻辑回归是逻辑回归的扩展 ,用于处理多分类问题 。它使用 Softmax 函数 替代 sigmoid,并使用交叉熵损失进行优化。由于其解释性强、计算成本低,在 NLP、CV、医学、金融等领域广泛应用。

与深度学习方法(如 CNN、Transformer)相比,多元逻辑回归适用于数据量小、计算资源有限的情况。当数据复杂度增加时,可以结合深度神经网络(如 Softmax 层 + CNN)进行优化。


8. 参考

  • Christopher M. Bishop. Pattern Recognition and Machine Learning.

  • Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning.

  • Andrew Ng, Machine Learning Stanford Course.

相关推荐
运营黑客3 分钟前
Grok 4,来了。
人工智能·学习·ai·aigc
xunberg11 分钟前
【MCP 实战派】Node-RED MCP 插件实践指南:从安装到常见问题解析
人工智能·开源
二二孚日11 分钟前
自用华为ICT云赛道AI第一章知识点-机器学习概览
人工智能·华为
weisian15112 分钟前
人工智能-基础篇-24-RAG和LLM到底怎么理解和区分?(LLM是深度训练的大语言生成模型,RAG是LLM更智能的补充技术)
人工智能
WaiterL13 分钟前
一文读懂 MCP 与 Agent
前端·人工智能·cursor
Liudef0632 分钟前
MCP协议技术解析:AI时代的通信基础设施革命
人工智能·mcp
火山引擎开发者社区33 分钟前
火山引擎Data Agent全面上线售卖!以企业级数据智能体,重构数据应用范式
人工智能·重构·火山引擎
安思派Anspire40 分钟前
LangGraph + MCP + Ollama:构建强大代理 AI 的关键(二)
人工智能·后端·python
运器1231 小时前
【一起来学AI大模型】支持向量机(SVM):核心算法深度解析
大数据·人工智能·算法·机器学习·支持向量机·ai·ai编程
开发者工具分享1 小时前
缺乏项目进度可视化手段,如何提升展示效果
人工智能