记录学习《手动学习深度学习》这本书的笔记(二)

这几天看完了第5章:深度学习计算,做个总结。

第五章:深度学习计算

5.1 层和块

介绍了神经网络的层和块。

层:①接收一组输入②生成相应输出③具有一组可调整参数

块:描述单个或多个层,或多个快,甚至整个模型。从编程角度,块由**类(class)**表示,其中包含前向传播函数和一些必要的参数。

python 复制代码
from mxnet import np, npx
from mxnet.gluon import nn

npx.set_np()

net = nn.Sequential()
net.add(nn.Dense(256, activation='relu'))
net.add(nn.Dense(10))
net.initialize()

X = np.random.uniform(size=(2, 20))
net(X)

这样就实现了一个块,包含一个带激活函数的含256个神经元的全连接层和一个10个神经元的全连接层。

net(X)在这里相当于net.call(X)(默认调用函数),作用是将X前向传播得出预测的y。

python 复制代码
Class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.hidden = nn.Linear(20, 256) 
        self.out = nn.Linnear(256, 10)
        # 括号里两个参数分别代表输入维度和输出维度
    
    def forward(self, X):
        return self.out(F.relu(self.hidden(X)))

net = MLP()
net(X)

这样就手动实现了一个块。

nn.Module的默认调用函数是forward,所以net(X)运行的其实是net.forward(X)。

然后再来实现一个可以自定义的块:

python 复制代码
class mySequential(nn.Module):
    def __init__(self, *args):
        super().__init__()
        for idx, module in enumerate(args):
            self._modules[str(idx)] = module

    def forward(self, X):
        for block in self._modules.values():
            X = block(X)
        return X

net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))
net(X)

5.2 参数管理

这里介绍了一些关于神经网络参数的知识。

比如我们可以用函数访问参数:

python 复制代码
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8,1))

print(net[2].state_dict())

state_dict()用于获取模型参数和缓冲区(如权重和偏置)的字典,访问第三层的weight和bias。

python 复制代码
print(net[2].bias)
print(net[2].bias.data)

输出偏置和参数类的实例。

还可以一次性输出模型全部参数,还有另一种输出模型参数的方式,还可以输出嵌套块的参数。

还有参数绑定:

python 复制代码
shared = nn.Linear(8, 8)
net = Sequential(shared, nn.ReLU(), shared)

这时改变一个,另一个也会变。

5.5 读写文件

可以将张量加载或保存,也可以将模型加载或保存。

5.6 GPU

计算机中有CPU和GPU两种处理器(设备),默认情况下变量和计算都保存在CPU中,CPU和GPU可以用torch.device('cpu')和torch.device('cuda')表示。

CPU代表所有物理CPU和内存,GPU只代表一个卡和显存。

python 复制代码
def try_gpu(i = 0):
    if torch.cuda.device_count() >= i+1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

可以自行设置将张量存储在gpu中,比如:

python 复制代码
X = torch.ones(2, 3, device = try_gpu(0))

不同gpu上张量无法互通,需要进行运算可以将张量复制到另一个gpu上。

python 复制代码
Z = X.cuda(1)

深度学习框架要求计算的输入数据都在同一设备上,无论是cpu还是gpu。

相关推荐
Long_poem2 小时前
【自学笔记】MySQL的重点知识点-持续更新
数据库·笔记·mysql
梦云澜5 小时前
论文阅读(十四):贝叶斯网络在全基因组DNA甲基化研究中的应用
论文阅读·人工智能·深度学习
Future_yzx6 小时前
算法基础学习——快排与归并(附带java模版)
学习·算法·排序算法
忆~遂愿7 小时前
3大关键点教你用Java和Spring Boot快速构建微服务架构:从零开发到高效服务注册与发现的逆袭之路
java·人工智能·spring boot·深度学习·机器学习·spring cloud·eureka
三次拒绝王俊凯8 小时前
记忆力训练day08
学习
deephub9 小时前
十大主流联邦学习框架:技术特性、架构分析与对比研究
人工智能·python·深度学习·机器学习·联邦学习
_zwy9 小时前
【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章
linux·运维·c++·深度学习·神经网络
Xiaouuuuua9 小时前
多项日常使用测试,带你了解如何选择AI工具 Deepseek VS ChatGpt VS Claude
笔记
学游戏开发的9 小时前
UE求职Demo开发日志#12 完善击杀获得物品逻辑和UI
笔记·游戏引擎·unreal engine
英国翰思教育10 小时前
留学毕业论文如何利用不同问题设计问卷
人工智能·深度学习·学习·算法·学习方法·论文笔记