线性回归 调试方法

调试方法

特征缩放

对于某些不具有比较性的样本特征 x i x_i xi (比如对其他的x来说 x i x_i xi 相当大或者相当小),梯度下降的过程可能会非常漫长,并且可能来回波动才能最后收敛到全局的最小值。

在这样的情况下,可以对 x i x_i xi 进行缩放(如 x i ≔ α x i x_i≔αx_i xi:=αxi 或者 x i = x i / α x_i=x_i/α xi=xi/α),使得 x i x_i xi 与其他的 x x x具有可比性,以增加梯度下降的效率。

**通常将 x x x缩放至⟦-1,1⟧**的区间内。(只表示一个大致的范围,这不是绝对的。)

均值归一

将 x i x_i xi 替换为 x i − μ i x_i−μ_i xi−μi 使得特征值具有为0的平均值(对 x 0 x_0 x0 不适用)
x i : = ( x i − μ i ) / s i x_i:=(x_i−μ_i)/s_i xi:=(xi−μi)/si

定义 μ i μ_i μi 为训练集 X X X 的平均值, s i = ∣ x i m a x − x i m i n ∣ s_i=|x_imax−x_imin | si=∣ximax−ximin∣, 表示 x i x_i xi 的取值范围(近似值),或者直接设置为 s i s_i si 的标准差。

学习率(Learning rate)

梯度下降调试的方法:

  1. 绘制 m i n J ( θ ) − b a t c h minJ(θ)-batch minJ(θ)−batch的图像

    原则:每一个batch之后 θ 的值都应该减小,这样的图像能够通过直观地表现变化率来表现梯度下降是否收敛(变化率为0)。

  2. 自动收敛测试

    如果 J ( θ ) J(θ) J(θ)在某一次迭代之后的下降值小于某个值 ε ε ε后,就能够判断算法已经达到了收敛。
    ε ε ε的值比较难取,所以通常采取1.中的方法进行观测。

常见的α过大的 m i n J ( θ ) − b a t c h minJ(θ)-batch minJ(θ)−batch的图像:

α过大,出现梯度爆炸,每次 J ( θ ) J(θ) J(θ)变化很大,导致代价函数无法收敛

α过小,梯度消失,每次 J ( θ ) J(θ) J(θ)变化很小,导致代价函数收敛速度过慢

相关推荐
Mr_Xuhhh3 分钟前
算法刷题笔记:从滑动窗口到哈夫曼编码,我的算法进阶之路
开发语言·算法
MicroTech20259 分钟前
突破虚时演化非酉限制:MLGO微算法科技发布可在现有量子计算机运行的变分量子模拟技术
科技·算法·量子计算
hssfscv16 分钟前
软件设计师下午题六——Java的各种设计模式
java·算法·设计模式
handsomestWei22 分钟前
scikit-learn数据预处理模块
python·机器学习·scikit-learn
计算机毕业设计指导24 分钟前
基于机器学习和深度学习的恶意WebURL检测系统实战详解
人工智能·深度学习·机器学习·网络安全
珂朵莉MM25 分钟前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--多策略混合算法
人工智能·算法
w_t_y_y26 分钟前
机器学习常用的python包(二)工具箱scikit-learn
python·机器学习·scikit-learn
罗西的思考32 分钟前
【OpenClaw】通过 Nanobot 源码学习架构---(6)Skills
人工智能·深度学习·算法
志栋智能33 分钟前
超自动化巡检:实现运维“事前预防”的关键拼图
大数据·运维·网络·人工智能·机器学习·自动化
枫叶林FYL35 分钟前
【自然语言处理 NLP】7.2 红队测试与对抗鲁棒性(Red Teaming & Adversarial Robustness)
人工智能·算法·机器学习