《图解机器学习-第六章》:线性回归和逻辑回归:最简单但最重要的机器学习模型

🎯 博主简介

CSDN 「新星创作者」 ,人工智能技术领域博主,码龄 5 年 ,累计发布 190+ 篇原创 文章,博客总访问量 30万+ 浏览。

🚀 持续更新 AI 前沿实战知识,专注于 AI 技术实战、RAG 系统、Agent 应用开发与大模型工程化落地

目前主要更新方向包括:

线性回归和逻辑回归:最简单但最重要的机器学习模型


上篇聊了评估模型的方法------MSE、RMSE、R²这些东西。

这篇文章我想解决一个更根本的问题:模型到底是怎么从数据里"长"出来的?它凭什么能预测房价、判断垃圾邮件?

拆解两个最基础的模型------线性回归和逻辑回归。它们看起来简单,但大多数机器学习模型都是它们的延伸。


两个"回归",干的活完全不一样

先别被名字绕晕。线性回归和逻辑回归,虽然都带"回归"俩字,但干的根本不是一回事。

线性回归预测的是一个具体的数值。比如明天降水量、房价走势、季度销售额。你输入一堆特征,它吐出一个数字。

逻辑回归做的是一个二选一的判断。比如这封邮件是不是垃圾短信、这笔贷款会不会违约。它不是给你一个数字,而是告诉你"是"还是"否"。

我带过几个实习生,每次讲这块都要用租房举例:

你去租房,线性回归会告诉你:"这套房子租金大概值6000块。"------给你一个具体数字。

逻辑回归则会告诉你:"这套房子值不值得租,值得就打1分,不值得就打0分。"------给你一个判断。

听起来挺简单的对吧?但细节才是真正有意思的地方。


线性回归:其实就是找一条最合适的直线

线性回归的核心:用一条直线,尽量贴近所有数据点。

你还记得 y = kx + b 吗?对,就是找出 k 和 b 的值。

现实情况是,影响房价的可不只是面积,还有地段、楼层、装修、周边配套......

这时候就要用多元线性回归

y = β₀ + β₁x₁ + β₂x₂ + β₃x₃ + ... + βₙxₙ

每个 x 代表一个特征,每个 β 是这个特征的权重。模型的工作就是找出最优的 β 值。

怎么找?

说出来你别笑------就是

你先猜一组 β,计算预测值和真实值的差距。然后调整 β,再算一遍。如果误差变小了,说明方向对了,继续调。

反复迭代,直到误差小到不能再小。这整个过程就是梯度下降

听起来笨,但计算机最擅长的就是重复劳动,而且算得比你快一万倍。


逻辑回归:名字骗了你,它其实是个分类器

逻辑回归这个名字天生容易让人误会。

它的输出不是回归到一个数值,而是输出一个概率

关键是 Sigmoid 函数:

f(x) = 1 / (1 + e^(-x))

这个函数的图像是个 S 形曲线。不管你输入什么数字,输出永远在 0 到 1 之间。

有什么用?

概率本身就是 0 到 1 之间的数。Sigmoid 把线性回归的输出"翻译"成了概率。

然后设个阈值就行了,通常是 0.5。概率大于等于 0.5,算一类;小于 0.5,算另一类。

就像高考录取分数线------过了及格线就录取,没过就不录取。简单粗暴,但管用。

那为什么叫"逻辑"回归?因为最早是生物学家研究种群增长时用的,叫"逻辑谛"曲线。后来被借用到机器学习里,名字就这么沿用下来了。


它们其实是"一家人"

表面上看,线性回归预测数值、逻辑回归做分类判断,完全是两种工具。

但它们的血缘关系很近。两者都属于广义线性模型(GLM)

逻辑回归本质就两步骤:

第一步:先把数据送进线性回归算一遍,得到一个 raw score。

第二步:把这个分数扔进 Sigmoid 函数,翻译成 0 到 1 之间的概率。

说白了,逻辑回归就是在线性回归外面包了一层"概率翻译器"。

两者都靠梯度下降来优化参数,区别只在于代价函数不同。

线性回归用最小二乘法,逻辑回归用交叉熵。

核心逻辑是一样的:猜参数 → 算误差 → 调整参数 → 继续猜。


为什么逻辑回归不用平方误差?

线性回归用平方误差挺好用,为什么逻辑回归不继续用?

因为如果逻辑回归也用平方误差,它的代价函数会变成一个非凸函数

什么是凸函数?想象一口圆底的碗。你往里扔个球,它不管从哪个方向滚,最后都会滚到碗底------只有一个最低点。

什么是非凸函数?想象月球表面,坑坑洼洼,有无数个凹陷。你往里扔球,可能滚进一个小坑就出不来了------到处都是"最低点",但大多数都是局部最优,不是全局最优。

用平方误差的逻辑回归就是这样。梯度下降可能找到一个看起来不错的解,但往往不是最优解。

那怎么办?

交叉熵作为代价函数。交叉熵是凸函数,只有一个全局最低点,梯度下降一定能找到这个点。

这就是逻辑回归"不跟平方误差玩"的原因------不是不想玩,是平方误差会把它带进沟里。


正则化:防止模型"死记硬背"

模型训练有个永恒的矛盾:既要拟合训练数据,又要保持简单

太简单,欠拟合------考试不及格,什么都没学会。

太复杂,过拟合------背下了所有考题的答案,但换一套卷子就抓瞎。

正则化就是来解决这个问题的。思路很简单:惩罚那些过于复杂的模型

两种主要的惩罚方式:

L1 正则化:把不重要的特征权重直接压成 0。相当于直接删除冗余特征,模型更精简。

L2 正则化:让所有特征权重都变小,但不会变成 0。相当于给每个特征都留点影响力,但谁都不能一家独大。

怎么选?

想要可解释的模型(比如想知道哪些因素真正重要),选 L1。它会把不重要的特征直接淘汰。

想要稳定的模型(比如上线后面对各种意外情况),选 L2。它让每个特征都参与决策,单个特征出问题也不影响全局。

没有绝对的好坏,只有场景的匹配。


掌握这两个"老祖宗",你就入门了

线性回归和逻辑回归,一个预测数值,一个做分类判断。

看起来风马牛不相及,但本质是一样的------用一条线去划分数据空间

线性回归画的是拟合线,逻辑回归画的是分类边界。

它们是机器学习最古老的两个"老祖宗"。后来的 SVM、神经网络、深度学习,说到底都是在想办法画更复杂的"线"。

搞懂了这两个模型,你再看其他算法,会有一种"原来都是套路"的感觉。


但问题来了------树模型可不是画直线,它是另一种思路:用一系列"如果-那么"的问题来做决策。

这就好比中医看病和西医看病的区别。一个靠望闻问切开药方,一个靠验血拍片找规律。

下回我们聊聊:树模型为什么这么受欢迎?决策树、随机森林、GBDT,它们各自的优势是什么?

相关推荐
pen-ai1 小时前
【HistGBM 系列①】从决策树到梯度提升 —— GBDT 原理精讲
算法·决策树·机器学习
逻辑君1 小时前
认知神经科学研究报告【20260087】
人工智能·深度学习·机器学习
大模型最新论文速读1 小时前
TRUST:RL 时保留模型的不确定性,效果提升 8%
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Omics Pro2 小时前
中医临床决策5款大语言模型,谁主沉浮?
数据库·人工智能·机器学习·语言模型·自然语言处理·chatgpt
云和数据.ChenGuang2 小时前
metrics的解释 人工智能
人工智能·深度学习·学习·机器学习·概率论
2601_961845152 小时前
花生十三图推思维导图|图形推理|技巧
数据结构·算法·链表·贪心算法·排序算法·线性回归·动态规划
极光代码工作室2 小时前
基于机器学习的新闻分类系统
人工智能·python·深度学习·机器学习
安逸sgr20 小时前
《图解机器学习-第四章》:损失函数和梯度下降:模型是怎么被训练出来的?
人工智能·机器学习·图解机器学习