如何通过神经网络看模型参数量?

我们经常听说某某大模型有多少亿参数,比如 DeepSeek R1 671B,那么这个参数如何通过神经网络图来看?

  • B(billion):10 亿
  • 例如:7B:就是 70 亿参数,671B 就是 6710 亿参数
  • 从神经网络神经元连接图上来看,这个参数量怎么来的?

以下面这个神经网络为例:

4 个输入(实际上 3 个变量输入一个偏置),2 个输出,三层网络,2 个隐藏层。

第1个隐藏层:使用Xavier正态分布初始化权重,激活函数使用Tanh

第2个隐藏层:使用He正态分布初始化权重,激活函数使用ReLU

输出层:按默认方式初始化,激活函数使用Softmax

先看如下代码,看一下输出结果:

复制代码
import torch
import torch.nn as nn

class Model(nn.Module):
    # 初始化
    def __init__(self):
        super(Model, self).__init__()  # 调用父类初始化
        self.linear1 = nn.Linear(3, 4)  # 第1个隐藏层,3个输入,4个输出
        nn.init.xavier_normal_(self.linear1.weight)  # 初始化权重参数
        self.linear2 = nn.Linear(4, 4)  # 第2个隐藏层,4个输入,4个输出
        nn.init.kaiming_normal_(self.linear2.weight)  # 初始化权重参数
        self.out = nn.Linear(4, 2)  # 输出层,4个输入,2个输出,默认使用He均匀分布初始化

    # 前向传播
    def forward(self, x):
        x = self.linear1(x)  # 经过第1个隐藏层
        x = torch.tanh(x)  # 激活函数
        x = self.linear2(x)  # 经过第2个隐藏层
        x = torch.relu(x)  # 激活函数
        x = self.out(x)  # 经过输出层
        x = torch.softmax(x, dim=1)  # 激活函数
        return x

model = Model()
output = model(torch.randn(10, 3))
print("输出:\n", output)
print()

# 使用named_parameters()查看各层参数
print("模型参数:")
for name, param in model.named_parameters():
    print(name, param)
    print()

# 使用state_dict()查看各层参数
print("模型参数:\n", model.state_dict())


from torchsummary import summary
# input_size:特征数,batch_size:样本数
summary(model, input_size=(3,), batch_size=10, device="cpu")

为什么输出的 param 是 16,20,10?

  • 第一层:3 * 4 + 4 = 16
  • 第二层:4 * 4 + 4 = 20
  • 第三层:4 * 2 + 2 = 10

总参数:16 + 20 + 10 = 46个参数量

* 前后的数实际上就是当前层的组合数

**+**后面的数就是偏置的数量

相关推荐
大模型任我行8 分钟前
腾讯:揭示评估幻觉并构建知识驱动新范式
人工智能·语言模型·自然语言处理·论文笔记
2301_776508728 分钟前
Python日志记录(Logging)最佳实践
jvm·数据库·python
2401_8796938722 分钟前
用Python批量处理Excel和CSV文件
jvm·数据库·python
I'm Jie25 分钟前
Swagger UI 本地化部署,解决 FastAPI Swagger UI 依赖外部 CDN 加载失败问题
python·ui·fastapi·swagger·swagger ui
LaughingZhu38 分钟前
Product Hunt 每日热榜 | 2026-03-21
人工智能·经验分享·深度学习·神经网络·产品运营
qzhqbb40 分钟前
差分隐私与大模型+差分隐私在相关领域应用的论文总结
人工智能·算法
一招定胜负42 分钟前
基于通义千问 API 的课堂话语智能分类分析工具实现
人工智能·分类·数据挖掘
2401_8463416544 分钟前
Python Lambda(匿名函数):简洁之道
jvm·数据库·python
2401_879693871 小时前
进阶技巧与底层原理
jvm·数据库·python
阿_旭1 小时前
基于YOLO26深度学习的【桃子成熟度检测与分割系统】【python源码+Pyqt5界面+数据集+训练代码】图像分割、人工智能
人工智能·python·深度学习·桃子成熟度检测