# 【机器学习-20】-数值计算误差、逻辑回归/Softmax的数值稳定性优化、以及TensorFlow实现细节

【机器学习-20】-数值计算误差、逻辑回归/Softmax的数值稳定性优化、以及TensorFlow实现细节

以下是基于5张图片核心内容的系统性解析与解决方案,涵盖数值计算误差、逻辑回归/Softmax的数值稳定性优化、以及TensorFlow实现细节


1. 数值舍入误差问题(图1)

问题现象

代码12.0/10000 输出精确值 0.000200000000000000

代码2(1 + 1/10000) - (1 - 1/10000) 输出 0.000199999999999978(理论应为 0.0002)。

原因与解决方案

原因 :浮点数运算的有限精度导致舍入误差累积。

解决方案

• 避免相近数相减(如重构公式)。

• 使用高精度库(如decimal)或数值稳定的实现(如图2-5的损失函数优化)。


2. 逻辑回归的数值稳定性优化(图2, 图5)

原始问题

传统实现(数值不稳定):

python 复制代码
a = sigmoid(z)  # a接近0或1时,log(a)可能溢出
loss = -y*log(a) - (1-y)*log(1-a)
优化方案

合并计算 (图2):

• 直接使用logits(未激活的z),通过from_logits=True让损失函数内部合并Sigmoid和交叉熵计算:
python loss = BinaryCrossentropy(from_logits=True) # 内部优化避免数值溢出

代码实现(图5):

python 复制代码
model = Sequential([
    Dense(25, activation='sigmoid'),
    Dense(15, activation='sigmoid'),
    Dense(1, activation='linear')  # 输出logits
])
model.compile(loss=BinaryCrossentropy(from_logits=True))
f_x = tf.nn.sigmoid(model(X))  # 预测时显式调用sigmoid

3. Softmax回归的数值稳定性优化(图3, 图4)

原始问题

传统Softmax

• 计算e^z可能导致数值溢出(尤其z较大时)。

• 损失函数直接计算log(softmax(z))会放大误差。

优化方案

合并计算 (图3):

• 使用SparseCategoricalCrossentropy(from_logits=True),内部优化避免显式计算e^z
python loss = -log(softmax(z_y)) = -z_y + log(sum(e^z_k))

代码实现(图4):

python 复制代码
model = Sequential([
    Dense(25, activation='relu'),
    Dense(15, activation='relu'),
    Dense(10, activation='linear')  # 输出logits
])
model.compile(loss=SparseCategoricalCrossentropy(from_logits=True))
logits = model(X)
f_x = tf.nn.softmax(logits)  # 预测时显式调用softmax

4. 综合解题思路与代码模板

题目示例

"设计一个MNIST分类模型,要求避免数值溢出并解释优化原理。"

解答步骤
  1. 数据预处理:归一化像素值到[0,1]。
  2. 模型设计
    • 输出层使用linear激活,输出logits。
    • 隐藏层根据任务选择relu(多分类)或sigmoid(二分类)。
  3. 损失函数配置
    • 多分类:SparseCategoricalCrossentropy(from_logits=True)
    • 二分类:BinaryCrossentropy(from_logits=True)
  4. 预测处理 :对logits显式调用softmaxsigmoid
代码模板(MNIST多分类)
python 复制代码
import tensorflow as tf

model = tf.keras.Sequential([
    tf.keras.layers.Dense(25, activation='relu'),
    tf.keras.layers.Dense(15, activation='relu'),
    tf.keras.layers.Dense(10, activation='linear')  # logits
])

model.compile(
    optimizer='adam',
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=['accuracy']
)

model.fit(X_train, y_train, epochs=10)

# 预测时转换logits为概率
logits = model(X_test)
probs = tf.nn.softmax(logits)

5. 关键总结

数值误差根源 :浮点数精度限制和指数运算溢出。

优化核心

逻辑回归 :合并Sigmoid与交叉熵计算。

Softmax :合并Softmax与交叉熵计算,利用from_logits=True

实践建议

• 输出层始终用linear,损失函数设置from_logits=True

• 避免手动实现损失函数,依赖框架优化。

如需进一步探讨具体数学推导或调试方法,请提供更多细节!



相关推荐
wayz1110 小时前
Day 18:Keras深度学习框架入门
人工智能·深度学习·神经网络·算法·机器学习·keras
AI科技星10 小时前
《基于 1 的 N 维分形与对称统一理论》
人工智能·算法·机器学习·数学建模·数据挖掘
Mr数据杨12 小时前
花卉图像分类在植物识别与生态监测中的应用
人工智能·机器学习·分类·数据挖掘·数据分析·kaggle
Mr数据杨12 小时前
埃姆斯住宅房价预测与自动化估值建模
运维·机器学习·数据分析·自动化·kaggle
帅次12 小时前
Android AI 面试速刷版
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据分析
MediaTea12 小时前
Scikit-learn:preprocessing 模块
人工智能·深度学习·机器学习·计算机视觉·scikit-learn
AI科技星13 小时前
《全域数学》第一部 数术本源 全10卷1-4级完整目录(出版定稿)
人工智能·机器学习·数学建模·数据挖掘·量子计算
开开心心就好13 小时前
无品牌限制的手机电视投屏工具推荐
科技·游戏·智能手机·edge·电脑·逻辑回归·powerpoint
AI科技星13 小时前
《全域数学》第一部·数术本源
算法·机器学习·数学建模·数据挖掘·量子计算
开开心心_Every13 小时前
图片转PDF合并工具,支持扫描仪输入
运维·前端·人工智能·随机森林·edge·pdf·逻辑回归