损失函数(Loss Function)是深度学习中至关重要的组成部分,它衡量模型预测结果与真实标签之间的差异,是模型优化的目标。本文将详细介绍线性回归损失函数(MAE、MSE)、CrossEntropyLoss和BCELoss的原理、特点及PyTorch实现。
1. 线性回归损失函数
线性回归问题通常使用MAE(平均绝对误差)和MSE(均方误差)作为损失函数。
1.1 MAE损失(L1 Loss)
MAE(Mean Absolute Error)计算预测值与真实值之间绝对差值的平均值。
公式:


特点:
-
对异常值不敏感
-
梯度恒定,不利于梯度下降优化
PyTorch实现:
python
import torch
import torch.nn as nn
# 创建MAE损失函数实例
mae_loss = nn.L1Loss()
# 示例数据
predictions = torch.tensor([1.5, 2.0, 3.2], dtype=torch.float32)
targets = torch.tensor([1.0, 2.5, 2.8], dtype=torch.float32)
# 计算损失
loss = mae_loss(predictions, targets)
print(f"MAE Loss: {loss.item():.4f}") # 输出: MAE Loss: 0.4667
1.2 MSE损失(L2 Loss)
MSE(Mean Squared Error)计算预测值与真实值之间平方差值的平均值。
公式:


特点:
-
对异常值敏感
-
梯度随误差增大而增大,有利于梯度下降
PyTorch实现:
python
# 创建MSE损失函数实例
mse_loss = nn.MSELoss()
# 使用之前的示例数据
loss = mse_loss(predictions, targets)
print(f"MSE Loss: {loss.item():.4f}") # 输出: MSE Loss: 0.2967
# 带reduction参数的MSE
mse_loss_sum = nn.MSELoss(reduction='sum') # 求和而非平均
loss_sum = mse_loss_sum(predictions, targets)
print(f"MSE Sum Loss: {loss_sum.item():.4f}") # 输出: MSE Sum Loss: 0.8900
参数说明:
-
reduction
:指定缩减方式,可选:-
'mean'(默认):返回损失的平均值
-
'sum':返回损失的总和
-
'none':返回每个样本的损失
-
2. CrossEntropyLoss(交叉熵损失)
交叉熵损失是分类任务中最常用的损失函数,尤其适用于多分类问题。
2.1 信息理论基础
2.1.1 信息量
对于一个事件x,其发生的概率为 P(x),信息量I(x)
信息量是衡量一个事件发生的"惊讶程度",定义:

2.1.2 信息熵
信息熵是信息量的期望,衡量系统的不确定性:

2.1.3 KL散度
KL散度衡量两个概率分布的差异:

2.1.4 交叉熵
交叉熵是信息熵与KL散度的组合:

在分类任务中,P是真实分布(one-hot),Q是预测分布,因此最小化交叉熵等价于最小化KL散度。
2.2 PyTorch实现
python
# 创建交叉熵损失函数实例
ce_loss = nn.CrossEntropyLoss()
# 示例数据
# 3个样本,5分类问题(注意输入不需要softmax,内部会自动处理)
logits = torch.tensor([[1.2, 0.4, -0.5, 2.1, 0.3],
[0.8, 1.9, -1.2, 0.4, 1.1],
[-0.1, 2.4, 0.7, 1.5, -0.5]], dtype=torch.float32)
# 每个样本的真实类别索引(0-4)
targets = torch.tensor([3, 1, 4], dtype=torch.long)
# 计算损失
loss = ce_loss(logits, targets)
print(f"CrossEntropy Loss: {loss.item():.4f}") # 输出示例: CrossEntropy Loss: 0.8765
参数说明:
-
weight
(Tensor, 可选):给每个类别分配权重,用于处理类别不平衡问题 -
ignore_index
(int, 可选):指定一个被忽略的类别索引,其不会贡献损失 -
reduction
(str, 可选):与MSE相同,指定缩减方式 -
label_smoothing
(float, 可选):标签平滑系数,0.0表示不使用
带权重的示例:
python
# 假设5个类别的权重分别为[0.1, 0.2, 0.3, 0.2, 0.2]
weights = torch.tensor([0.1, 0.2, 0.3, 0.2, 0.2], dtype=torch.float32)
ce_loss_weighted = nn.CrossEntropyLoss(weight=weights)
loss_weighted = ce_loss_weighted(logits, targets)
print(f"Weighted CrossEntropy Loss: {loss_weighted.item():.4f}")
3. BCELoss(二元交叉熵损失)
BCELoss(Binary Cross Entropy Loss)用于二分类问题,每个样本只能属于正类或负类。
公式:

参数说明
-
n:
-
表示当前批次中的样本数量
-
用于计算所有样本损失的平均值
-
在PyTorch中可以通过
reduction='mean'
(默认)或reduction='sum'
来改变这个行为
-
-
i:
-
样本索引,从1到n
-
表示对批次中每个样本的计算
-
-
yᵢ:
-
第i个样本的真实标签(ground truth)
-
取值为0或1(负类或正类)
-
在PyTorch中通常是一个浮点型Tensor,形状为
[batch_size]
或[batch_size, 1]
-
-
ŷᵢ(y hat):
-
模型对第i个样本的预测概率
-
取值范围应该在(0,1)之间,通常通过sigmoid函数得到
-
形状与yᵢ相同
-
-
log:
-
自然对数(以e为底)
-
在PyTorch实现中会处理数值稳定性问题(如添加微小值防止log(0))
-
PyTorch实现:
python
# 创建BCE损失函数实例
bce_loss = nn.BCELoss()
# 示例数据
# 4个样本的预测概率(经过sigmoid激活)
predictions = torch.tensor([0.8, 0.2, 0.6, 0.9], dtype=torch.float32)
# 真实标签(0或1)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)
# 计算损失
loss = bce_loss(predictions, targets)
print(f"BCE Loss: {loss.item():.4f}") # 输出示例: BCE Loss: 0.2070
# 带权重的BCE
bce_loss_weighted = nn.BCELoss(weight=torch.tensor([1.0, 2.0, 1.0, 1.0]))
loss_weighted = bce_loss_weighted(predictions, targets)
print(f"Weighted BCE Loss: {loss_weighted.item():.4f}")
BCEWithLogitsLoss:
通常在实际使用中,我们更常用BCEWithLogitsLoss
,它结合了Sigmoid激活和BCELoss,数值计算更稳定。
python
bce_logits_loss = nn.BCEWithLogitsLoss()
# 输入是未经过sigmoid的原始logits
logits = torch.tensor([1.5, -1.2, 0.4, 2.1], dtype=torch.float32)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)
loss = bce_logits_loss(logits, targets)
print(f"BCEWithLogits Loss: {loss.item():.4f}")
参数说明:
-
weight
:与CrossEntropyLoss类似,用于样本加权重 -
pos_weight
:正样本的权重,用于调整正负样本不平衡 -
reduction
:同上
4. 损失函数总结与选择指南
损失函数 | 适用场景 | 特点 |
---|---|---|
MAE (L1 Loss) | 回归问题 | 对异常值不敏感,梯度恒定 |
MSE (L2 Loss) | 回归问题 | 对异常值敏感,梯度随误差增大 |
CrossEntropyLoss | 多分类问题 | 结合Softmax,直接处理类别概率 |
BCELoss | 二分类问题 | 需配合Sigmoid使用,处理0-1概率 |
BCEWithLogitsLoss | 二分类问题 | 结合Sigmoid,数值稳定性更好 |
选择建议:
-
回归问题:
-
数据中有异常值:优先考虑MAE
-
数据质量较好:使用MSE
-
-
分类问题:
-
二分类:使用BCEWithLogitsLoss
-
多分类:使用CrossEntropyLoss
-
类别不平衡:使用带权重的版本
-
-
特殊需求:
-
需要更关注困难样本:考虑使用Focal Loss等变体
-
多标签分类:可能需要组合多个BCELoss
-
5. 完整示例:MNIST分类中的损失函数应用
python
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
# 数据准备
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,))
])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
# 简单模型
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.fc1 = nn.Linear(28*28, 128)
self.fc2 = nn.Linear(128, 10)
def forward(self, x):
x = x.view(-1, 28*28)
x = torch.relu(self.fc1(x))
x = self.fc2(x)
return x
model = Net()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 使用CrossEntropyLoss
criterion = nn.CrossEntropyLoss()
# 训练循环
for epoch in range(5):
for batch_idx, (data, target) in enumerate(train_loader):
optimizer.zero_grad()
output = model(data)
loss = criterion(output, target)
loss.backward()
optimizer.step()
if batch_idx % 100 == 0:
print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.4f}')
通过本文的详细讲解,相信您已经对深度学习中常见的损失函数有了全面的了解。在实际应用中,根据具体问题和数据特点选择合适的损失函数,是构建高效模型的重要一步。