保存和加载模型及其参数
引言
获取参数
在某些情况下,我们可能需要仔细检查模型的参数,以查看是否存在失效或爆炸的神经元。为了获取这些参数,我们将遍历可训练的层,提取它们的参数并放入一个列表中。这里唯一的可训练层类型是Dense层。让我们为Layer_Dense
类添加一个方法来获取参数:
python
# Dense layer
class Layer_Dense:
...
# Retrieve layer parameters
def get_parameters(self):
return self.weights, self.biases
在Model
类中,我们将添加一个get_parameters
方法,该方法将遍历模型的可训练层,运行它们的get_parameters
方法,并将返回的权重和偏置添加到一个列表中:
python
# Model class
class Model:
...
# Retrieves and returns parameters of trainable layers
def get_parameters(self):
# Create a list for parameters
parameters = []
# Iterable trainable layers and get their parameters
for layer in self.trainable_layers:
parameters.append(layer.get_parameters())
# Return a list
return parameters
现在,在训练模型后,我们可以通过运行来获取参数:
python
parameters = model.get_parameters()
举个例子:
python
# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')
# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]
# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5
# Instantiate the model
model = Model()
# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())
# Set loss, optimizer and accuracy objects
model.set(
loss=Loss_CategoricalCrossentropy(),
optimizer=Optimizer_Adam(decay=1e-3),
accuracy=Accuracy_Categorical()
)
# Finalize the model
model.finalize()
# Train the model
model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)
# Retrieve and print parameters
parameters = model.get_parameters()
print(parameters)
它看起来会像这样(为了节省空间,我们对输出进行了截取):
python
>>>
...
-0.18927288, 0.0336437 ],
...,
[ 0.02769264, 0.14146185, -0.13853191, ..., -0.13160856,
-0.13367364, 0.22421911],
[-0.2422033 , -0.36273137, -0.03640889, ..., -0.07910284,
-0.10948356, -0.0334659 ],
[-0.10650896, -0.01283493, 0.05585624, ..., 0.13493767,
-0.12748371, 0.06437428]], dtype=float32), array([[-2.03783307e-02, -5.95034193e-03, 1.01475455e-02,
3.62973587e-05, -1.01141036e-02, -1.75972488e-02,
1.61381923e-02, -6.46391883e-03, 4.84018400e-02,
9.68032982e-03]], dtype=float32))]
设置参数
如果我们有一个获取参数的方法,我们可能也会希望有一个设置参数的方法。我们将以类似于设置get_parameters
方法的方式来实现,从Layer_Dense
类开始:
python
# Dense layer
class Layer_Dense:
...
# Set weights and biases in a layer instance
def set_parameters(self, weights, biases):
self.weights = weights
self.biases = biases
然后我们就可以更新模型类了:
python
# Model class
class Model:
...
# Updates the model with new parameters
def set_parameters(self, parameters):
# Iterate over the parameters and layers
# and update each layers with each set of the parameters
for parameter_set, layer in zip(parameters, self.trainable_layers):
layer.set_parameters(*parameter_set)
我们在这里也遍历了可训练的层,但接下来的操作需要稍作解释。首先,zip()
函数接收可迭代对象(如列表),并返回一个新的迭代器,其中包含所有传入参数的成对组合。换句话说(以我们的示例为例),zip()
将一个参数列表和一个层列表组合在一起,返回一个迭代器,包含这两个列表的第0个元素的元组,然后是第1个元素的元组,再到第2个元素的元组,以此类推。通过这种方式,我们可以同时遍历参数和它们所属的层。
由于我们的参数是包含权重和偏置的元组,我们会使用一个解包表达式将它们分开,以便Layer_Dense
方法可以将它们作为单独的参数接收。这种方法为我们提供了灵活性,使我们可以使用具有不同参数组数量的层。
目前的一个区别是,这允许我们拥有一个从未需要优化器的模型。如果我们不训练模型,而是将已训练的参数加载到模型中,那么我们不会优化任何内容。为了解决这一点,我们需要访问Model
类的finalize
方法,并进行以下更改:
python
# Model class
class Model:
...
# Finalize the model
def finalize(self):
...
# Update loss object with trainable layers
self.loss.remember_trainable_layers(self.trainable_layers)
改为(我们添加了一个if
语句,只有在损失对象存在时,才将可训练层的列表设置为损失函数):
python
# Model class
class Model:
...
# Finalize the model
def finalize(self):
...
# Update loss object with trainable layers
# self.loss.remember_trainable_layers(self.trainable_layers)
if self.loss is not None:
self.loss.remember_trainable_layers(self.trainable_layers)
接下来,我们将修改Model
类的set
方法,使其允许仅传入指定的参数。我们将为参数分配默认值,并添加if
语句,以便仅在参数存在时使用它们。为此,我们将进行以下更改:
python
# Model class
class Model:
...
# Set loss, optimizer and accuracy
def set(self, *, loss, optimizer, accuracy):
self.loss = loss
self.optimizer = optimizer
self.accuracy = accuracy
改为:
python
# Model class
class Model:
...
# Set loss, optimizer and accuracy
def set(self, *, loss=None, optimizer=None, accuracy=None):
if loss is not None:
self.loss = loss
if optimizer is not None:
self.optimizer = optimizer
if accuracy is not None:
self.accuracy = accuracy
现在我们可以训练一个模型,获取其参数,创建一个新模型,并将从之前训练的模型中检索到的参数设置到新模型中:
python
>>>
(model training output removed)
validation, acc: 0.874, loss: 0.354
validation, acc: 0.874, loss: 0.354
保存参数
现在我们将进一步扩展,实际将参数保存到文件中。为此,我们将在Model
类中添加一个save_parameters
方法。我们将使用Python内置的pickle
模块来序列化任何Python对象。序列化是将对象(可以是任何抽象形式)转换为二进制表示形式的过程,即一组可以保存到文件中的字节。这种序列化形式包含了以后重新创建对象所需的所有信息。pickle
可以返回序列化对象的字节,也可以直接将其保存到文件中。我们将利用后者的功能,因此先导入pickle
模块:
python
import pickle
然后,我们将在Model
类中添加一个新方法。在使用pickle
将参数保存到文件之前,我们需要通过以二进制写模式打开文件来创建文件句柄。然后将这个句柄和数据一起传递给pickle.dump()
。为了创建文件,我们需要一个文件名来保存数据,我们会将其作为一个参数传入:
python
# Model class
class Model:
...
# Saves the parameters to a file
def save_parameters(self, path):
# Open a file in the binary-write mode
# and save parameters to it
with open(path, 'wb') as f:
pickle.dump(self.get_parameters(), f)
使用这种方法,您可以通过运行来保存训练模型的参数:
python
model.save_parameters('fashion_mnist.parms')
加载参数
如果我们将模型参数保存到文件中,显然我们也希望有一种方法可以从该文件中加载它们。加载参数与保存参数非常相似,只是过程相反。我们会以二进制读取模式打开文件,并使用pickle
从中读取数据,将参数反序列化回一个列表。然后调用之前创建的set_parameters
方法,并将加载的参数传入:
python
# Model class
class Model:
...
# Loads the weights and updates a model instance with them
def load_parameters(self, path):
# Open file in the binary-read mode,
# load weights and update trainable layers
with open(path, 'rb') as f:
self.set_parameters(pickle.load(f))
我们设置一个模型,加载参数文件(我们没有训练这个模型),然后测试模型以检查其是否正常工作:
我们需要使用
model.save_parameters('fashion_mnist.parms')
保存训练之后的参数再进行加载model.load_parameters('fashion_mnist.parms')
。
python
# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')
# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]
# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5
# Instantiate the model
model = Model()
# Add layers
model.add(Layer_Dense(X.shape[1], 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 128))
model.add(Activation_ReLU())
model.add(Layer_Dense(128, 10))
model.add(Activation_Softmax())
# Set loss and accuracy objects
# We do not set optimizer object this time - there's no need to do it
# as we won't train the model
model.set(
loss=Loss_CategoricalCrossentropy(),
# optimizer=Optimizer_Adam(decay=1e-4),
accuracy=Accuracy_Categorical()
)
# Finalize the model
model.finalize()
# # Train the model
# model.train(X, y, validation_data=(X_test, y_test), epochs=10, batch_size=128, print_every=100)
# # Save the model
# model.save_parameters('fashion_mnist.parms')
# Set model with parameters instead of training it
model.load_parameters('fashion_mnist.parms')
# Evaluate the model
model.evaluate(X_test, y_test)
python
>>>
validation, acc: 0.884, loss: 0.352
虽然我们可以保存和加载模型参数值,但仍然需要定义模型。它必须与我们导入参数的模型配置完全相同。如果我们能够直接保存模型本身,会更方便。
保存模型
为什么一开始我们没有直接保存整个模型呢?保存权重和保存整个模型有不同的使用场景,各有优劣。通过保存的权重,你可以,例如,用这些权重初始化一个模型,这些权重是从类似数据训练得来的,然后训练这个模型以适应你的特定数据。这被称为迁移学习(transfer learning),本书不涉及这一内容。权重还可以用于可视化模型(例如,本书从第6章开始创建的一些动画)、识别失效的神经元、实现更复杂的模型(例如强化学习,将多个模型的权重合并到一个网络中)等。此外,仅包含权重的文件比整个模型小得多。从权重初始化的模型加载速度更快,占用内存更少,因为不会创建优化器和相关部分。
仅加载权重和偏置的一个缺点是,初始化的模型不包含优化器的状态。如果需要进一步训练模型,可以继续训练,但如果计划继续训练,加载完整模型更为理想。保存完整模型时,所有与模型相关的内容都会被保存,包括优化器的状态(这使我们能够轻松继续训练)以及模型的结构。
我们将在Model
类中创建另一个方法,用于保存整个模型。首先,我们将复制一份模型,因为我们会在保存之前对其进行编辑,同时我们可能希望在训练过程中保存模型作为检查点。
我们导入copy
模块来支持这一点:
python
import copy
python
# Model class
class Model:
...
# Saves the model
def save(self, path):
# Make a deep copy of current model instance
model = copy.deepcopy(self)
copy
模块提供了两种方法用于复制模型------copy
和deepcopy
。虽然copy
速度更快,但它只复制对象属性的第一层,这会导致复制的模型对象与原始模型共享某些引用。例如,我们的模型对象有一个包含层的列表------该列表是顶层属性,而层本身是次级属性------因此,对层对象的引用将被原始模型对象和复制的模型对象共享。由于copy
方法的这些局限性,我们将使用deepcopy
方法,它会递归地遍历所有对象并创建完整的副本。
接下来,我们将移除累积的损失和准确率。
python
# Model class
class Model:
...
# Saves the model
def save(self, path):
# Make a deep copy of current model instance
model = copy.deepcopy(self)
# Reset accumulated values in loss and accuracy objects
model.loss.new_pass()
model.accuracy.new_pass()
然后删除输入层中的任何数据,并重置梯度(如果有的话):
python
# Model class
class Model:
...
# Saves the model
def save(self, path):
# Make a deep copy of current model instance
model = copy.deepcopy(self)
# Reset accumulated values in loss and accuracy objects
model.loss.new_pass()
model.accuracy.new_pass()
# Remove data from input layer
# and gradients from the loss object
model.input_layer.__dict__.pop('output', None)
model.loss.__dict__.pop('dinputs', None)
model.input_layer
和model.loss
都是类实例。它们是Model
对象的属性,同时也是独立的对象。所有类都具有一个名为__dict__
的双下划线属性(被称为"dunder"属性,因为它有双下划线)。它包含了类对象属性的名称和值。
我们可以在这些值上使用内置的pop
方法,这意味着可以将它们从类对象的实例中移除。pop
方法如果遇到我们传入的键(作为第一个参数)不存在的情况,会抛出一个错误,因为pop
方法希望返回被移除键的值。为了防止这些错误,我们使用pop
方法的第二个参数------这是键不存在时我们希望返回的默认值。我们将这个参数设置为None
,因为我们不打算捕获被移除的值,并且默认值是什么实际上并不重要。
通过这种方式,我们不需要检查某个属性是否存在(比如当我们想用del
语句删除它时,某些属性可能不存在)。
接下来,我们将遍历所有图层,删除它们的属性:
python
# For each layer remove inputs, output and dinputs properties
for layer in model.layers:
for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:
layer.__dict__.pop(property, None)
在清理这些内容后,我们可以保存模型对象。为此,我们需要以二进制写模式打开一个文件,并使用pickle.dump()
方法,将模型对象和文件句柄作为参数传入:
python
# Open a file in the binary-write mode and save the model
with open(path, 'wb') as f:
pickle.dump(model, f)
这就是完整的save
方法:
python
# Model class
class Model:
...
# Saves the model
def save(self, path):
# Make a deep copy of current model instance
model = copy.deepcopy(self)
# Reset accumulated values in loss and accuracy objects
model.loss.new_pass()
model.accuracy.new_pass()
# Remove data from input layer
# and gradients from the loss object
model.input_layer.__dict__.pop('output', None)
model.loss.__dict__.pop('dinputs', None)
# For each layer remove inputs, output and dinputs properties
for layer in model.layers:
for property in ['inputs', 'output', 'dinputs', 'dweights', 'dbiases']:
layer.__dict__.pop(property, None)
# Open a file in the binary-write mode and save the model
with open(path, 'wb') as f:
pickle.dump(model, f)
这意味着我们可以训练一个模型,然后随时保存它:
python
model.save('fashion_mnist.model')
加载模型
加载模型最好在模型对象尚未存在之前进行。我们的意思是,可以通过调用Model
类的方法来加载模型,而不是通过对象调用:
python
model = Model.load('fashion_mnist.model')
为实现这一点,我们将使用@staticmethod
装饰器。这个装饰器可以与类方法一起使用,以便在未初始化的对象上运行这些方法,此时self
并不存在(注意它在函数定义中缺失)。在我们的例子中,我们将使用它直接创建一个模型对象,而无需先实例化模型对象。
在此方法中,我们将使用传入的路径以二进制读取模式打开一个文件,并使用pickle
来反序列化保存的模型:
python
# Model class
class Model:
...
# Loads and returns a model
@staticmethod
def load(path):
# Open file in the binary-read mode, load a model
with open(path, 'rb') as f:
model = pickle.load(f)
# Return a model
return model
由于我们已经有一个保存的模型,现在让我们创建数据,然后加载模型以查看它是否正常工作:
python
# Create dataset
X, y, X_test, y_test = create_data_mnist('fashion_mnist_images')
# Shuffle the training dataset
keys = np.array(range(X.shape[0]))
np.random.shuffle(keys)
X = X[keys]
y = y[keys]
# Scale and reshape samples
X = (X.reshape(X.shape[0], -1).astype(np.float32) - 127.5) / 127.5
X_test = (X_test.reshape(X_test.shape[0], -1).astype(np.float32) - 127.5) / 127.5
# Load the model
model = Model.load('fashion_mnist.model')
# Evaluate the model
model.evaluate(X_test, y_test)
python
>>>
validation, acc: 0.884, loss: 0.352
保存完整的已训练模型是保存模型的一种常见方式。它保存了参数(权重和偏置)、所有模型对象的实例以及它们生成的数据。例如,这包括优化器的状态(如缓存、学习率衰减)、完整的模型结构等。
在这种情况下,加载模型只需调用一个方法,模型就可以直接使用,无论是继续训练还是用于预测。
本章的章节代码、更多资源和勘误表:https://nnfs.io/ch21