深度学习中的常见损失函数详解及PyTorch实现

损失函数(Loss Function)是深度学习中至关重要的组成部分,它衡量模型预测结果与真实标签之间的差异,是模型优化的目标。本文将详细介绍线性回归损失函数(MAE、MSE)、CrossEntropyLoss和BCELoss的原理、特点及PyTorch实现。

1. 线性回归损失函数

线性回归问题通常使用MAE(平均绝对误差)和MSE(均方误差)作为损失函数。

1.1 MAE损失(L1 Loss)

MAE(Mean Absolute Error)计算预测值与真实值之间绝对差值的平均值。

公式

特点

  • 对异常值不敏感

  • 梯度恒定,不利于梯度下降优化

PyTorch实现

python 复制代码
import torch
import torch.nn as nn

# 创建MAE损失函数实例
mae_loss = nn.L1Loss()

# 示例数据
predictions = torch.tensor([1.5, 2.0, 3.2], dtype=torch.float32)
targets = torch.tensor([1.0, 2.5, 2.8], dtype=torch.float32)

# 计算损失
loss = mae_loss(predictions, targets)
print(f"MAE Loss: {loss.item():.4f}")  # 输出: MAE Loss: 0.4667

1.2 MSE损失(L2 Loss)

MSE(Mean Squared Error)计算预测值与真实值之间平方差值的平均值。

公式

特点

  • 对异常值敏感

  • 梯度随误差增大而增大,有利于梯度下降

PyTorch实现

python 复制代码
# 创建MSE损失函数实例
mse_loss = nn.MSELoss()

# 使用之前的示例数据
loss = mse_loss(predictions, targets)
print(f"MSE Loss: {loss.item():.4f}")  # 输出: MSE Loss: 0.2967

# 带reduction参数的MSE
mse_loss_sum = nn.MSELoss(reduction='sum')  # 求和而非平均
loss_sum = mse_loss_sum(predictions, targets)
print(f"MSE Sum Loss: {loss_sum.item():.4f}")  # 输出: MSE Sum Loss: 0.8900

参数说明

  • reduction:指定缩减方式,可选:

    • 'mean'(默认):返回损失的平均值

    • 'sum':返回损失的总和

    • 'none':返回每个样本的损失

2. CrossEntropyLoss(交叉熵损失)

交叉熵损失是分类任务中最常用的损失函数,尤其适用于多分类问题。

2.1 信息理论基础

2.1.1 信息量

对于一个事件x,其发生的概率为 P(x),信息量I(x)

信息量是衡量一个事件发生的"惊讶程度",定义:

2.1.2 信息熵

信息熵是信息量的期望,衡量系统的不确定性:

2.1.3 KL散度

KL散度衡量两个概率分布的差异:

2.1.4 交叉熵

交叉熵是信息熵与KL散度的组合:

在分类任务中,P是真实分布(one-hot),Q是预测分布,因此最小化交叉熵等价于最小化KL散度。

2.2 PyTorch实现

python 复制代码
# 创建交叉熵损失函数实例
ce_loss = nn.CrossEntropyLoss()

# 示例数据
# 3个样本,5分类问题(注意输入不需要softmax,内部会自动处理)
logits = torch.tensor([[1.2, 0.4, -0.5, 2.1, 0.3],
                       [0.8, 1.9, -1.2, 0.4, 1.1],
                       [-0.1, 2.4, 0.7, 1.5, -0.5]], dtype=torch.float32)

# 每个样本的真实类别索引(0-4)
targets = torch.tensor([3, 1, 4], dtype=torch.long)

# 计算损失
loss = ce_loss(logits, targets)
print(f"CrossEntropy Loss: {loss.item():.4f}")  # 输出示例: CrossEntropy Loss: 0.8765

参数说明

  • weight(Tensor, 可选):给每个类别分配权重,用于处理类别不平衡问题

  • ignore_index(int, 可选):指定一个被忽略的类别索引,其不会贡献损失

  • reduction(str, 可选):与MSE相同,指定缩减方式

  • label_smoothing(float, 可选):标签平滑系数,0.0表示不使用

带权重的示例

python 复制代码
# 假设5个类别的权重分别为[0.1, 0.2, 0.3, 0.2, 0.2]
weights = torch.tensor([0.1, 0.2, 0.3, 0.2, 0.2], dtype=torch.float32)

ce_loss_weighted = nn.CrossEntropyLoss(weight=weights)
loss_weighted = ce_loss_weighted(logits, targets)
print(f"Weighted CrossEntropy Loss: {loss_weighted.item():.4f}")

3. BCELoss(二元交叉熵损失)

BCELoss(Binary Cross Entropy Loss)用于二分类问题,每个样本只能属于正类或负类。

公式

参数说明

  1. n

    • 表示当前批次中的样本数量

    • 用于计算所有样本损失的平均值

    • 在PyTorch中可以通过reduction='mean'(默认)或reduction='sum'来改变这个行为

  2. i

    • 样本索引,从1到n

    • 表示对批次中每个样本的计算

  3. yᵢ

    • 第i个样本的真实标签(ground truth)

    • 取值为0或1(负类或正类)

    • 在PyTorch中通常是一个浮点型Tensor,形状为[batch_size][batch_size, 1]

  4. ŷᵢ(y hat):

    • 模型对第i个样本的预测概率

    • 取值范围应该在(0,1)之间,通常通过sigmoid函数得到

    • 形状与yᵢ相同

  5. log

    • 自然对数(以e为底)

    • 在PyTorch实现中会处理数值稳定性问题(如添加微小值防止log(0))

PyTorch实现

python 复制代码
# 创建BCE损失函数实例
bce_loss = nn.BCELoss()

# 示例数据
# 4个样本的预测概率(经过sigmoid激活)
predictions = torch.tensor([0.8, 0.2, 0.6, 0.9], dtype=torch.float32)
# 真实标签(0或1)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)

# 计算损失
loss = bce_loss(predictions, targets)
print(f"BCE Loss: {loss.item():.4f}")  # 输出示例: BCE Loss: 0.2070

# 带权重的BCE
bce_loss_weighted = nn.BCELoss(weight=torch.tensor([1.0, 2.0, 1.0, 1.0]))
loss_weighted = bce_loss_weighted(predictions, targets)
print(f"Weighted BCE Loss: {loss_weighted.item():.4f}")

BCEWithLogitsLoss

通常在实际使用中,我们更常用BCEWithLogitsLoss,它结合了Sigmoid激活和BCELoss,数值计算更稳定。

python 复制代码
bce_logits_loss = nn.BCEWithLogitsLoss()

# 输入是未经过sigmoid的原始logits
logits = torch.tensor([1.5, -1.2, 0.4, 2.1], dtype=torch.float32)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)

loss = bce_logits_loss(logits, targets)
print(f"BCEWithLogits Loss: {loss.item():.4f}")

参数说明

  • weight:与CrossEntropyLoss类似,用于样本加权重

  • pos_weight:正样本的权重,用于调整正负样本不平衡

  • reduction:同上

4. 损失函数总结与选择指南

损失函数 适用场景 特点
MAE (L1 Loss) 回归问题 对异常值不敏感,梯度恒定
MSE (L2 Loss) 回归问题 对异常值敏感,梯度随误差增大
CrossEntropyLoss 多分类问题 结合Softmax,直接处理类别概率
BCELoss 二分类问题 需配合Sigmoid使用,处理0-1概率
BCEWithLogitsLoss 二分类问题 结合Sigmoid,数值稳定性更好

选择建议

  1. 回归问题:

    • 数据中有异常值:优先考虑MAE

    • 数据质量较好:使用MSE

  2. 分类问题:

    • 二分类:使用BCEWithLogitsLoss

    • 多分类:使用CrossEntropyLoss

    • 类别不平衡:使用带权重的版本

  3. 特殊需求:

    • 需要更关注困难样本:考虑使用Focal Loss等变体

    • 多标签分类:可能需要组合多个BCELoss

5. 完整示例:MNIST分类中的损失函数应用

python 复制代码
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 数据准备
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)

# 简单模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28*28, 128)
        self.fc2 = nn.Linear(128, 10)
    
    def forward(self, x):
        x = x.view(-1, 28*28)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

model = Net()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 使用CrossEntropyLoss
criterion = nn.CrossEntropyLoss()

# 训练循环
for epoch in range(5):
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        
        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.4f}')

通过本文的详细讲解,相信您已经对深度学习中常见的损失函数有了全面的了解。在实际应用中,根据具体问题和数据特点选择合适的损失函数,是构建高效模型的重要一步。

相关推荐
学术小八1 小时前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯2 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec3 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl3 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji4 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
ai小鬼头5 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域5 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序
飞哥数智坊6 小时前
新版定价不够用,Cursor如何退回旧版定价
人工智能·cursor
12点一刻6 小时前
搭建自动化工作流:探寻解放双手的有效方案(2)
运维·人工智能·自动化·deepseek
未来之窗软件服务6 小时前
东方仙盟AI数据中间件使用教程:开启数据交互与自动化应用新时代——仙盟创梦IDE
运维·人工智能·自动化·仙盟创梦ide·东方仙盟·阿雪技术观