
1. 尝试将平均汇聚层作为卷积层的特殊情况实现。


平均汇聚层(Average Pooling Layer)可以看作是一种特殊的卷积层,其卷积核的大小等于汇聚窗口的大小,卷积核的权重都是相同的值,这个值是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 k h × k w \frac{1}{k_h \times k_w} </math>kh×kw1。通过这种方式,平均汇聚层可以看作是一个没有偏置的卷积层。


  1. 定义卷积核 :卷积核的大小等于汇聚窗口的大小,所有权重都是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 k h × k w \frac{1}{k_h \times k_w} </math>kh×kw1。
  2. 执行卷积运算:使用这个特殊的卷积核对输入张量进行卷积操作,相当于执行平均汇聚。


我们将使用PyTorch来实现这个功能。假设输入张量的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s , h e i g h t , w i d t h ) (batch\_size, channels, height, width) </math>(batch_size,channels,height,width)。

python 复制代码
import torch
import torch.nn.functional as F

def average_pooling_as_conv(X, pool_size, stride, padding):
    batch_size, channels, height, width = X.shape
    k_h, k_w = pool_size
    # Step 1: Define the convolution kernel
    conv_kernel = torch.ones((channels, 1, k_h, k_w)) / (k_h * k_w)
    # Step 2: Apply the convolution operation
    # Since we want to apply the same kernel to each channel independently, we need to use groups=channels
    Y = F.conv2d(X, conv_kernel, stride=stride, padding=padding, groups=channels)
    return Y

# Example input
X = torch.randn(1, 3, 6, 6)  # Batch size 1, 3 channels, 6x6 spatial dimensions

# Pooling parameters
pool_size = (2, 2)
stride = (2, 2)
padding = (0, 0)

# Perform average pooling using convolution
Y = average_pooling_as_conv(X, pool_size, stride, padding)

print(Y.shape)  # Output should have shape (1, 3, 3, 3) for this example


  • 卷积核的定义
    • conv_kernel = torch.ones((channels, 1, k_h, k_w)) / (k_h * k_w):这里创建了一个卷积核,其形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( c h a n n e l s , 1 , k h , k w ) (channels, 1, k_h, k_w) </math>(channels,1,kh,kw)。每个通道有一个 <math xmlns="http://www.w3.org/1998/Math/MathML"> k h × k w k_h \times k_w </math>kh×kw 的卷积核,所有值都是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 k h × k w \frac{1}{k_h \times k_w} </math>kh×kw1,用于计算平均值。
  • 卷积操作
    • F.conv2d(X, conv_kernel, stride=stride, padding=padding, groups=channels):这里的 groups=channels 参数确保每个输入通道都应用其对应的卷积核,而不进行通道间的混合。



  • 乘法次数:每个输出位置需要 <math xmlns="http://www.w3.org/1998/Math/MathML"> k h × k w k_h \times k_w </math>kh×kw 次乘法。
  • 加法次数:每个输出位置需要 <math xmlns="http://www.w3.org/1998/Math/MathML"> k h × k w − 1 k_h \times k_w - 1 </math>kh×kw−1 次加法。
  • 总体复杂度: <math xmlns="http://www.w3.org/1998/Math/MathML"> O ( b a t c h _ s i z e × c h a n n e l s × h ′ × w ′ × k h × k w ) O(batch\_size \times channels \times h' \times w' \times k_h \times k_w) </math>O(batch_size×channels×h′×w′×kh×kw),其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> h ′ h' </math>h′ 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> w ′ w' </math>w′ 是输出的高度和宽度。



python 复制代码
# Use PyTorch's built-in average pooling for comparison
Y_builtin = F.avg_pool2d(X, kernel_size=pool_size, stride=stride, padding=padding)

# Check if the outputs are close enough
assert torch.allclose(Y, Y_builtin, atol=1e-6)

print("The custom average pooling implementation matches the built-in implementation.")


2. 尝试将最大汇聚层作为卷积层的特殊情况实现。

将最大汇聚层(Max Pooling Layer)作为卷积层的特殊情况实现比平均汇聚层稍微复杂一些,因为最大汇聚涉及选择最大值而不是计算平均值。这要求我们模拟最大汇聚操作,而不仅仅是应用一个固定的卷积核。



  1. 将输入张量 X 转换为列矩阵:通过将每个汇聚窗口的元素重排列成列,我们可以将最大汇聚操作转换为矩阵运算。
  2. 对每列应用最大汇聚操作:使用矩阵操作找到每列的最大值。
  3. 将结果重排回汇聚后的形状:将最大值结果重排为汇聚后的输出形状。


我们将使用PyTorch来实现这个功能。假设输入张量的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s , h e i g h t , w i d t h ) (batch\_size, channels, height, width) </math>(batch_size,channels,height,width)。

python 复制代码
import torch
import torch.nn.functional as F
from torch import nn

def max_pooling_as_conv(X, pool_size, stride, padding):
    batch_size, channels, height, width = X.shape
    k_h, k_w = pool_size
    # Step 1: Unfold the input tensor to columns
    X_unfold = F.unfold(X, kernel_size=(k_h, k_w), stride=stride, padding=padding)
    # Reshape the unfolded tensor to (batch_size * channels, k_h * k_w, new_height * new_width)
    new_height = (height - k_h + 2 * padding) // stride + 1
    new_width = (width - k_w + 2 * padding) // stride + 1
    X_unfold = X_unfold.view(batch_size, channels, k_h * k_w, new_height * new_width)
    # Step 2: Apply max pooling to each column
    Y = X_unfold.max(dim=2)[0]
    # Step 3: Reshape the result to the output tensor shape
    Y = Y.view(batch_size, channels, new_height, new_width)
    return Y

# Example input
X = torch.randn(1, 3, 6, 6)  # Batch size 1, 3 channels, 6x6 spatial dimensions

# Pooling parameters
pool_size = (2, 2)
stride = (2, 2)
padding = (0, 0)

# Perform max pooling using convolution-like operations
Y = max_pooling_as_conv(X, pool_size, stride, padding)

print(Y.shape)  # Output should have shape (1, 3, 3, 3) for this example


  • Step 1: Unfold the input tensor to columns

    • F.unfold 将输入张量展开成列矩阵,其中每个列对应一个汇聚窗口。展开后的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s × k h × k w , n e w h e i g h t × n e w w i d t h ) (batch\_size, channels \times k_h \times k_w, new_height \times new_width) </math>(batch_size,channels×kh×kw,newheight×newwidth)。
    • 通过 view 将其重塑为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s , k h × k w , n e w h e i g h t × n e w w i d t h ) (batch\_size, channels, k_h \times k_w, new_height \times new_width) </math>(batch_size,channels,kh×kw,newheight×newwidth),方便后续操作。
  • Step 2: Apply max pooling to each column

    • X_unfold.max(dim=2)[0] 在第2维度(汇聚窗口的大小)上进行最大值操作,得到每个汇聚窗口的最大值。
    • 结果形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s , n e w h e i g h t × n e w w i d t h ) (batch\_size, channels, new_height \times new_width) </math>(batch_size,channels,newheight×newwidth)。
  • Step 3: Reshape the result to the output tensor shape

    • 通过 view 将结果重塑为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( b a t c h _ s i z e , c h a n n e l s , n e w h e i g h t , n e w w i d t h ) (batch\_size, channels, new_height, new_width) </math>(batch_size,channels,newheight,newwidth),即为最大汇聚后的输出张量。



python 复制代码
# Use PyTorch's built-in max pooling for comparison
Y_builtin = F.max_pool2d(X, kernel_size=pool_size, stride=stride, padding=padding)

# Check if the outputs are close enough
assert torch.allclose(Y, Y_builtin, atol=1e-6)

print("The custom max pooling implementation matches the built-in implementation.")


3. 假设汇聚层的输入大小为 <math xmlns="http://www.w3.org/1998/Math/MathML"> c × h × w c\times h\times w </math>c×h×w,则汇聚窗口的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h\times p_w </math>ph×pw,填充为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( p h , p w ) (p_h, p_w) </math>(ph,pw),步幅为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s h , s w ) (s_h, s_w) </math>(sh,sw)。这个汇聚层的计算成本是多少?



假设输入张量的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> c × h × w c \times h \times w </math>c×h×w,汇聚窗口的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw,填充为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( p h , p w ) (p_h, p_w) </math>(ph,pw),步幅为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s h , s w ) (s_h, s_w) </math>(sh,sw)。


首先,我们需要确定输出特征图的高度和宽度。输出特征图的高度 <math xmlns="http://www.w3.org/1998/Math/MathML"> h ′ h' </math>h′ 和宽度 <math xmlns="http://www.w3.org/1998/Math/MathML"> w ′ w' </math>w′ 可以通过以下公式计算:

<math xmlns="http://www.w3.org/1998/Math/MathML"> h ′ = ⌊ h − p h + 2 × p h s h ⌋ + 1 h' = \left\lfloor \frac{h - p_h + 2 \times p_h}{s_h} \right\rfloor + 1 </math>h′=⌊shh−ph+2×ph⌋+1 <math xmlns="http://www.w3.org/1998/Math/MathML"> w ′ = ⌊ w − p w + 2 × p w s w ⌋ + 1 w' = \left\lfloor \frac{w - p_w + 2 \times p_w}{s_w} \right\rfloor + 1 </math>w′=⌊sww−pw+2×pw⌋+1



  1. 最大汇聚(Max Pooling)

    • 对于每个汇聚窗口,最大汇聚操作需要遍历所有元素,找到其中的最大值。
    • 每个汇聚窗口需要进行 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w − 1 p_h \times p_w - 1 </math>ph×pw−1 次比较操作。
  2. 平均汇聚(Average Pooling)

    • 对于每个汇聚窗口,平均汇聚操作需要遍历所有元素,计算它们的和并除以元素个数。
    • 每个汇聚窗口需要进行 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw 次加法操作和一次除法操作(除法操作可以忽略不计,因为它是常数操作)。




  1. 最大汇聚(Max Pooling) : <math xmlns="http://www.w3.org/1998/Math/MathML"> 总计算成本 = c × h ′ × w ′ × ( p h × p w − 1 ) \text{总计算成本} = c \times h' \times w' \times (p_h \times p_w - 1) </math>总计算成本=c×h′×w′×(ph×pw−1)

  2. 平均汇聚(Average Pooling) : <math xmlns="http://www.w3.org/1998/Math/MathML"> 总计算成本 = c × h ′ × w ′ × p h × p w \text{总计算成本} = c \times h' \times w' \times p_h \times p_w </math>总计算成本=c×h′×w′×ph×pw


假设输入张量的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> c = 3 c = 3 </math>c=3, <math xmlns="http://www.w3.org/1998/Math/MathML"> h = 32 h = 32 </math>h=32, <math xmlns="http://www.w3.org/1998/Math/MathML"> w = 32 w = 32 </math>w=32,汇聚窗口的形状为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h = 2 p_h = 2 </math>ph=2, <math xmlns="http://www.w3.org/1998/Math/MathML"> p w = 2 p_w = 2 </math>pw=2,填充为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( p h = 0 , p w = 0 ) (p_h = 0, p_w = 0) </math>(ph=0,pw=0),步幅为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s h = 2 , s w = 2 ) (s_h = 2, s_w = 2) </math>(sh=2,sw=2)。

  1. 计算输出特征图的大小 : <math xmlns="http://www.w3.org/1998/Math/MathML"> h ′ = ⌊ 32 − 2 + 0 2 ⌋ + 1 = 16 h' = \left\lfloor \frac{32 - 2 + 0}{2} \right\rfloor + 1 = 16 </math>h′=⌊232−2+0⌋+1=16 <math xmlns="http://www.w3.org/1998/Math/MathML"> w ′ = ⌊ 32 − 2 + 0 2 ⌋ + 1 = 16 w' = \left\lfloor \frac{32 - 2 + 0}{2} \right\rfloor + 1 = 16 </math>w′=⌊232−2+0⌋+1=16

  2. 计算总计算成本

    • 最大汇聚(Max Pooling) : <math xmlns="http://www.w3.org/1998/Math/MathML"> 总计算成本 = 3 × 16 × 16 × ( 2 × 2 − 1 ) = 3 × 16 × 16 × 3 = 2304 \text{总计算成本} = 3 \times 16 \times 16 \times (2 \times 2 - 1) = 3 \times 16 \times 16 \times 3 = 2304 </math>总计算成本=3×16×16×(2×2−1)=3×16×16×3=2304

    • 平均汇聚(Average Pooling) : <math xmlns="http://www.w3.org/1998/Math/MathML"> 总计算成本 = 3 × 16 × 16 × ( 2 × 2 ) = 3 × 16 × 16 × 4 = 3072 \text{总计算成本} = 3 \times 16 \times 16 \times (2 \times 2) = 3 \times 16 \times 16 \times 4 = 3072 </math>总计算成本=3×16×16×(2×2)=3×16×16×4=3072


对于一个汇聚窗口大小为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw、填充为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( p h , p w ) (p_h, p_w) </math>(ph,pw)、步幅为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( s h , s w ) (s_h, s_w) </math>(sh,sw) 的汇聚层:

  • 最大汇聚的总计算成本: <math xmlns="http://www.w3.org/1998/Math/MathML"> c × h ′ × w ′ × ( p h × p w − 1 ) c \times h' \times w' \times (p_h \times p_w - 1) </math>c×h′×w′×(ph×pw−1)
  • 平均汇聚的总计算成本: <math xmlns="http://www.w3.org/1998/Math/MathML"> c × h ′ × w ′ × p h × p w c \times h' \times w' \times p_h \times p_w </math>c×h′×w′×ph×pw

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> h ′ h' </math>h′ 和 <math xmlns="http://www.w3.org/1998/Math/MathML"> w ′ w' </math>w′ 分别是输出特征图的高度和宽度,通过输入尺寸、汇聚窗口大小、填充和步幅计算得到。

4. 为什么最大汇聚层和平均汇聚层的工作方式不同?

最大汇聚层(Max Pooling Layer)和平均汇聚层(Average Pooling Layer)在卷积神经网络中扮演着不同的角色,因为它们处理输入数据的方式和目的不同。以下是两者工作方式的详细区别和原因:

最大汇聚层(Max Pooling Layer)


  • 最大汇聚层在每个汇聚窗口内选取最大值作为该窗口的输出。
  • 对于一个大小为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw 的汇聚窗口,最大汇聚层会在窗口内寻找最大的像素值,并将其作为输出特征图中的对应位置的值。


  1. 捕捉显著特征:最大汇聚层能够保留输入特征图中最显著的特征,即那些具有最高激活值的特征,这对于识别物体的边缘和关键点非常重要。
  2. 降采样:通过汇聚操作,最大汇聚层减少了特征图的尺寸(即降采样),从而降低了计算成本并减少了参数量。
  3. 增强鲁棒性:最大汇聚层对位置变化和噪声具有一定的鲁棒性,因为它只保留每个局部区域的最大值,这使得模型对输入数据的微小变动不敏感。

平均汇聚层(Average Pooling Layer)


  • 平均汇聚层在每个汇聚窗口内计算所有像素值的平均值,并将其作为该窗口的输出。
  • 对于一个大小为 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw 的汇聚窗口,平均汇聚层会计算窗口内所有像素值的平均值,并将其作为输出特征图中的对应位置的值。


  1. 平滑特征图:平均汇聚层通过计算局部区域的平均值来平滑特征图,这有助于减少噪声和细节,突出全局模式。
  2. 降采样:与最大汇聚层一样,平均汇聚层也可以通过汇聚操作减少特征图的尺寸。
  3. 平衡信息:平均汇聚层不会只关注最大的值,而是考虑整个汇聚窗口内所有的值,因此能够更均匀地处理特征图中的信息。


  1. 特征选择

    • 最大汇聚:选择最显著的特征,保留局部区域内的最大值,适合捕捉局部显著性特征。
    • 平均汇聚:平均所有特征,平滑特征图,适合突出全局信息。
  2. 鲁棒性

    • 最大汇聚:对输入数据的微小变化不敏感,因为它只关注每个汇聚窗口中的最大值。
    • 平均汇聚:对噪声有一定的平滑效果,但可能会丢失局部细节。
  3. 应用场景

    • 最大汇聚:常用于识别物体的边缘和关键点,因此在目标检测和物体识别任务中应用广泛。
    • 平均汇聚:适合用于需要平滑和降噪的任务,比如语义分割和图像分类中的全局特征提取。



  • 最大汇聚:需要在每个汇聚窗口内执行比较操作,找到最大值。这种操作本质上是非线性的。
  • 平均汇聚:需要在每个汇聚窗口内执行加法操作,计算平均值。这种操作是线性的。



  • 最大汇聚 :每个汇聚窗口需要进行 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w − 1 p_h \times p_w - 1 </math>ph×pw−1 次比较操作。
  • 平均汇聚 :每个汇聚窗口需要进行 <math xmlns="http://www.w3.org/1998/Math/MathML"> p h × p w p_h \times p_w </math>ph×pw 次加法操作和一次除法操作。


5. 我们是否需要最小汇聚层?可以用已知函数替换它吗?

最小汇聚层(Min Pooling Layer)在卷积神经网络中并不常见,但在某些特定应用中,它可能具有潜在的价值。最小汇聚层的作用与最大汇聚层相反,即在每个汇聚窗口内选取最小值作为该窗口的输出。



  1. 检测异常低值特征:在某些情况下,检测图像中的低值特征或异常值可能是重要的。例如,在医学影像中,识别特定区域的低强度可能有助于发现病变。
  2. 去除高值噪声:最小汇聚层可以帮助去除高值噪声,因为它只关注每个局部区域的最小值。



  1. 用最大汇聚层替换最小汇聚层
    • 将输入张量的所有元素取负数。
    • 对负数张量应用最大汇聚层。
    • 将结果再取负数,得到最终的最小汇聚结果。




python 复制代码
import torch
import torch.nn.functional as F

def min_pooling_as_max_pooling(X, pool_size, stride, padding):
    # Step 1: Negate the input tensor
    X_neg = -X
    # Step 2: Apply max pooling to the negated tensor
    Y_neg = F.max_pool2d(X_neg, kernel_size=pool_size, stride=stride, padding=padding)
    # Step 3: Negate the result to get the min pooling result
    Y = -Y_neg
    return Y

# Example input
X = torch.randn(1, 3, 6, 6)  # Batch size 1, 3 channels, 6x6 spatial dimensions

# Pooling parameters
pool_size = (2, 2)
stride = (2, 2)
padding = (0, 0)

# Perform min pooling using the max pooling substitution method
Y = min_pooling_as_max_pooling(X, pool_size, stride, padding)

print(Y.shape)  # Output shape should be (1, 3, 3, 3) for this example



python 复制代码
# Use PyTorch's built-in max pooling for comparison on negated tensor
Y_builtin_neg = F.max_pool2d(-X, kernel_size=pool_size, stride=stride, padding=padding)
Y_builtin = -Y_builtin_neg

# Check if the outputs are close enough
assert torch.allclose(Y, Y_builtin, atol=1e-6)

print("The custom min pooling implementation matches the expected result.")



6. 除了平均汇聚层和最大汇聚层,是否有其它函数可以考虑(提示:回想一下softmax)?为什么它不流行?

除了平均汇聚层(Average Pooling Layer)和最大汇聚层(Max Pooling Layer),还有其他一些可以考虑的汇聚操作。例如,可以使用softmax 函数来对汇聚窗口内的元素进行加权平均,这种方法可以称为softmax汇聚(Softmax Pooling)。尽管理论上是可行的,但在实践中不常见。这是因为softmax汇聚的计算复杂度更高,且其特性并不总是符合卷积神经网络的需求。

Softmax汇聚(Softmax Pooling)


  • 对于每个汇聚窗口,首先计算窗口内每个元素的softmax值。
  • 使用这些softmax值作为权重,对窗口内的元素进行加权平均,得到该窗口的输出值。


  1. 计算softmax值 :对汇聚窗口内的元素进行softmax变换: <math xmlns="http://www.w3.org/1998/Math/MathML"> softmax ( x i ) = e x i ∑ j e x j \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j} e^{x_j}} </math>softmax(xi)=∑jexjexi
  2. 加权平均 :使用softmax值作为权重,对窗口内的元素进行加权平均: <math xmlns="http://www.w3.org/1998/Math/MathML"> y = ∑ i softmax ( x i ) ⋅ x i y = \sum_{i} \text{softmax}(x_i) \cdot x_i </math>y=∑isoftmax(xi)⋅xi



python 复制代码
import torch
import torch.nn.functional as F

def softmax_pooling(X, pool_size, stride, padding):
    batch_size, channels, height, width = X.shape
    k_h, k_w = pool_size
    # Step 1: Unfold the input tensor to columns
    X_unfold = F.unfold(X, kernel_size=(k_h, k_w), stride=stride, padding=padding)
    # Reshape the unfolded tensor to (batch_size * channels, k_h * k_w, new_height * new_width)
    new_height = (height - k_h + 2 * padding) // stride + 1
    new_width = (width - k_w + 2 * padding) // stride + 1
    X_unfold = X_unfold.view(batch_size, channels, k_h * k_w, new_height * new_width)
    # Step 2: Apply softmax to each column along the pooling window dimension
    X_softmax = F.softmax(X_unfold, dim=2)
    # Step 3: Apply weighted sum to get the softmax pooled result
    Y = (X_softmax * X_unfold).sum(dim=2)
    # Step 4: Reshape the result to the output tensor shape
    Y = Y.view(batch_size, channels, new_height, new_width)
    return Y

# Example input
X = torch.randn(1, 3, 6, 6)  # Batch size 1, 3 channels, 6x6 spatial dimensions

# Pooling parameters
pool_size = (2, 2)
stride = (2, 2)
padding = (0, 0)

# Perform softmax pooling
Y = softmax_pooling(X, pool_size, stride, padding)

print(Y.shape)  # Output shape should be (1, 3, 3, 3) for this example



  1. 计算复杂度:相比于最大汇聚和平均汇聚,softmax汇聚需要更多的计算。计算softmax值涉及指数运算和归一化操作,这增加了计算的复杂度。
  2. 数值稳定性:计算softmax值时可能会遇到数值稳定性问题,尤其是在处理大值或小值时,容易出现溢出或下溢。
  3. 不明显的优势:在大多数应用中,最大汇聚和平均汇聚已经能够提供良好的性能和鲁棒性。Softmax汇聚的加权平均特性并没有带来显著的性能提升,反而增加了计算成本。
  4. 网络的非线性特性:卷积神经网络中的非线性激活函数(如ReLU)已经能够有效地捕捉复杂的特征。引入softmax汇聚的额外复杂性和非线性并没有显著提升网络的表示能力。



我的青春不太冷1 小时前
zxfeng~1 小时前
FL16238631292 小时前
梦云澜8 小时前
IT古董9 小时前
摸鱼仙人~11 小时前
Attention Free Transformer (AFT)-2020论文笔记
python算法(魔法师版)11 小时前
kakaZhui11 小时前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
struggle202512 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
davenian15 小时前
DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力