深度马尔可夫模型deep markov 为序列数据建立一个深度概率模型:深度马尔可夫模型 pyro pytorch,python编程

深度马尔可夫模型¶

介绍¶

我们将为序列数据建立一个深度概率模型:深度马尔可夫模型。我们想要建模的特定数据集由复调音乐片段组成。序列中的每个时间片跨越一个四分音符，由一个88维的二进制向量表示，该向量在该时间步长对音符进行编码。

由于音乐(显然)在时间上是一致的，我们需要一个模型来表示观察到的数据中复杂的时间相关性。例如，考虑这样一种模型是不合适的，在这种模型中，特定时间步的音符独立于先前时间步的音符。一种方法是建立一个潜在变量模型，其中观测值的可变性和时间结构由潜在变量的动态控制。

这个想法的一个具体实现是马尔可夫模型，其中我们有一个潜在变量链，链中的每个潜在变量都取决于前一个潜在变量。这是一种强大的方法，但是如果我们想要用复杂的(在这种情况下是未知的)动态来表示复杂的数据，我们希望我们的模型足够灵活，以适应潜在的高度非线性的动态。因此，深度马尔可夫模型:我们允许控制潜在变量动态的转移概率以及控制潜在动态如何产生观察的发射概率由(非线性)神经网络参数化。

我们将要实现的特定模型基于以下参考:

后一项可能是一个非常强的正则项，在训练的早期阶段，它倾向于支持包含许多坏的局部最优值的损失曲面区域。参考文献[1]中也采用了避免这些不良局部最优的一种策略，即通过将KL散度项乘以一个标量来退火KL散度项annealing_factor范围在0到1之间:

Eq(z1:T)[原木⁡p(x1:T|z1:T)]−annealing_factor×Eq(z1:T)[原木⁡q(z1:T)−原木⁡p(z1:T)]

这个想法是在训练的过程中annealing_factor从初始值(接近零)缓慢上升到最终值(1.0)。退火程序是任意的；下面我们将使用一个简单的线性时间表。就代码而言，为了通过适当的退火因子来调整对数似然性，我们将每个潜在的示例语句都包含在模型中，并用pyro.poutine.scale语境。

最后，我们应该提到，这里描述的DMM实现与参考文献[1]中使用的DMM实现之间的主要区别在于，它们利用了两个高斯分布之间的KL散度的解析公式(而我们依赖于蒙特卡罗估计)。这使得ELBO的方差梯度估计值更低，从而使训练变得更加容易。我们仍然可以在不进行这种分析替换的情况下训练模型，但是训练可能需要更长的时间，因为方差更大。要使用解析KL偏差，请使用TraceMeanField_ELBO.

数据加载、培训和评估¶

首先我们加载数据。训练数据集中有229个序列，每个序列的平均长度约为60个时间步长。

复制代码

jsb_file_loc = "./data/jsb_processed.pkl"
data = pickle.load(open(jsb_file_loc, "rb"))
training_seq_lengths = data['train']['sequence_lengths']
training_data_sequences = data['train']['sequences']
test_seq_lengths = data['test']['sequence_lengths']
test_data_sequences = data['test']['sequences']
val_seq_lengths = data['valid']['sequence_lengths']
val_data_sequences = data['valid']['sequences']
N_train_data = len(training_seq_lengths)
N_train_time_slices = np.sum(training_seq_lengths)
N_mini_batches = int(N_train_data / args.mini_batch_size +
                     int(N_train_data % args.mini_batch_size > 0))

对于这个数据集，我们通常使用mini_batch_size20，因此每个时期将有12个小批量。接下来我们定义函数process_minibatch其准备用于训练的小批量并采取梯度步骤:

复制代码

def process_minibatch(epoch, which_mini_batch, shuffled_indices):
    if args.annealing_epochs > 0 and epoch < args.annealing_epochs:
        # compute the KL annealing factor appropriate
        # for the current mini-batch in the current epoch
        min_af = args.minimum_annealing_factor
        annealing_factor = min_af + (1.0 - min_af) * \
            (float(which_mini_batch + epoch * N_mini_batches + 1) /
             float(args.annealing_epochs * N_mini_batches))
    else:
        # by default the KL annealing factor is unity
        annealing_factor = 1.0

    # compute which sequences in the training set we should grab
    mini_batch_start = (which_mini_batch * args.mini_batch_size)
    mini_batch_end = np.min([(which_mini_batch + 1) * args.mini_batch_size,
                             N_train_data])
    mini_batch_indices = shuffled_indices[mini_batch_start:mini_batch_end]
    # grab the fully prepped mini-batch using the helper function in the data loader
    mini_batch, mini_batch_reversed, mini_batch_mask, mini_batch_seq_lengths \
        = poly.get_mini_batch(mini_batch_indices, training_data_sequences,
                              training_seq_lengths, cuda=args.cuda)
    # do an actual gradient step
    loss = svi.step(mini_batch, mini_batch_reversed, mini_batch_mask,
                     mini_batch_seq_lengths, annealing_factor)
    # keep track of the training loss
    return loss

我们首先计算适合于小批量的KL退火因子(根据前面描述的线性时间表)。然后，我们计算小批量索引，并将其传递给助手函数get_mini_batch。这个助手函数负责许多不同的事情:

它根据序列长度对每个小批量进行排序
它调用另一个助手函数来以相反的时间顺序获得小批量的副本
它将每个反转的小批量包装在一个rnn.pack_padded_sequence，然后准备被RNN吸收
如果我们在GPU上，它会计算所有张量
它调用另一个助手函数来为小批量获取合适的0/1掩码

然后，我们通过管道将get_mini_batch()到...里面elbo.step(...)。回想一下，这些参数将被进一步传送到model(...)和guide(...)在中构建梯度估计器的过程中elbo。最后，我们返回一个float，它是对小批量损失的有噪声的估计。

我们现在已经具备了训练循环主要部分所需的所有要素:

复制代码

times = [time.time()]
for epoch in range(args.num_epochs):
    # accumulator for our estimate of the negative log likelihood
    # (or rather -elbo) for this epoch
    epoch_nll = 0.0
    # prepare mini-batch subsampling indices for this epoch
    shuffled_indices = np.arange(N_train_data)
    np.random.shuffle(shuffled_indices)

    # process each mini-batch; this is where we take gradient steps
    for which_mini_batch in range(N_mini_batches):
        epoch_nll += process_minibatch(epoch, which_mini_batch, shuffled_indices)

    # report training diagnostics
    times.append(time.time())
    epoch_time = times[-1] - times[-2]
    log("[training epoch %04d]  %.4f \\t\\t\\t\\t(dt = %.3f sec)" %
        (epoch, epoch_nll / N_train_time_slices, epoch_time))

在每个时期的开始，我们打乱指向训练数据的索引。然后，我们处理每一个小批量，直到我们完成了整个训练集，在我们进行的过程中累积训练损失。最后，我们报告一些诊断信息。注意，我们通过训练集中的时间片总数来归一化损失(这允许我们与参考文献[1]进行比较)。

估价¶

这个训练循环仍然缺少任何类型的评估诊断。让我们解决这个问题。首先，我们需要为评估准备验证和测试数据。由于验证和测试数据集足够小，我们可以很容易地将它们放入内存，我们将分批处理每个数据集(即，我们不会将数据集分成小批)。[旁白:在这一点上，读者可能会问为什么我们不为训练集做同样的事情。原因在于，由于数据二次采样而产生的额外随机性在优化过程中通常是有利的:特别是它可以帮助我们避免局部最优。]事实上，为了获得ELBO更少的噪声估计，我们将计算多样本估计。最简单的方法如下:

复制代码

val_loss = svi.evaluate_loss(val_batch, ..., num_particles=5)

然而，这将涉及一个明确的for循环五次迭代。对于我们的特定模型，我们可以做得更好，并对整个计算进行矢量化。目前在Pyro中实现这一点的唯一方法是显式复制数据n_eval_samples很多次。这是我们遵循的策略:

复制代码

# package repeated copies of val/test data for faster evaluation
# (i.e. set us up for vectorization)
def rep(x):
    return np.repeat(x, n_eval_samples, axis=0)

# get the validation/test data ready for the dmm: pack into sequences, etc.
val_seq_lengths = rep(val_seq_lengths)
test_seq_lengths = rep(test_seq_lengths)
val_batch, val_batch_reversed, val_batch_mask, val_seq_lengths = poly.get_mini_batch(
    np.arange(n_eval_samples * val_data_sequences.shape[0]), rep(val_data_sequences),
    val_seq_lengths, cuda=args.cuda)
test_batch, test_batch_reversed, test_batch_mask, test_seq_lengths = \
    poly.get_mini_batch(np.arange(n_eval_samples * test_data_sequences.shape[0]),
                        rep(test_data_sequences),
                        test_seq_lengths, cuda=args.cuda)

现在测试和验证数据已经准备好了，我们定义执行评估的辅助函数:

复制代码

def do_evaluation():
    # put the RNN into evaluation mode (i.e. turn off drop-out if applicable)
    dmm.rnn.eval()

    # compute the validation and test loss
    val_nll = svi.evaluate_loss(val_batch, val_batch_reversed, val_batch_mask,
                                 val_seq_lengths) / np.sum(val_seq_lengths)
    test_nll = svi.evaluate_loss(test_batch, test_batch_reversed, test_batch_mask,
                                  test_seq_lengths) / np.sum(test_seq_lengths)

    # put the RNN back into training mode (i.e. turn on drop-out if applicable)
    dmm.rnn.train()
    return val_nll, test_nll

我们简单地称之为evaluate_loss...的方法elbo，它采用与相同的参数step()，即传递给模型和指南的参数。请注意，我们必须让RNN进入和退出评估模式，以解决辍学问题。我们现在可以坚持do_evaluation()进入训练循环；看见源代码详情请见。

结果¶

让我们确保我们的实现给出合理的结果。我们可以使用参考文献[1]中报告的数字作为健全性检查。对于相同的数据集和相似的模型/向导设置(潜在空间的维度、RNN中隐藏单元的数量等)。)他们报告的归一化负对数似然(NLL)为6.93在测试集上(越低越好§)§。这将与我们的结果相比较6.87。这些数字非常接近，这令人放心。看起来，至少对于这个数据集来说，不使用KL散度的解析表达式不会降低学习模型的质量(尽管如上所述，训练可能需要更长的时间)。

图3:随着样本训练运行的训练进行，测试集NLL上的进度。

在图中，我们显示了测试NLL在单个样本运行(具有相当保守的学习率)的训练期间如何进展。大部分的进步是在前3000个纪元左右，如果我们让训练持续更长时间，会有一些边际收益。在GeForce GTX 1080上，5000个epochs需要大约20个小时。

`num_iafs`	测试NLL
`0`	`6.87`
`1`	`6.82`
`2`	`6.80`

最后，我们还报告了在组合中使用标准化流的指南的结果(细节将在下一节中找到)。

§§实际上，他们似乎报告了同一个型号/指南的两个数字------6.93和7.03，并且不完全清楚这两个报告的数字有什么不同。

铃铛、口哨和其他改进¶

反向自回归流¶

概率编程语言的一大优点是它鼓励模块化。让我们展示一个DMM环境中的例子。我们将通过向混合中添加归一化流来使我们的变分分布更加丰富(参见参考文献[2]中的讨论)。这只会让我们多花四行代码！

首先，在DMM我们添加的构造函数

复制代码

iafs = [AffineAutoregressive(AutoRegressiveNN(z_dim, [iaf_dim])) for _ in range(num_iafs)]
self.iafs = nn.ModuleList(iafs)

这实例化了num_iafs的许多双射变换AffineAutoregressive类型(见参考文献[3，4])；每个规格化流将具有iaf_dim许多隐藏的单位。然后，我们将规范化流程捆绑在一个nn.ModuleList；这只是打包一系列nn.Module南接下来，在指南中，我们添加行

复制代码

if self.iafs.__len__() > 0:
    z_dist = TransformedDistribution(z_dist, self.iafs)

这里我们取的是基本分布z_dist，在我们的例子中是一个条件高斯分布，使用TransformedDistribution构造我们将它转换成非高斯分布，即，通过构造，比基本分布更丰富。瞧啊。

检查点¶

如果我们想从训练循环中的灾难性失败中恢复，我们需要跟踪两种状态。首先是模型和向导的各种参数。第二个是优化器的状态(例如，在Adam中，这将包括每个参数的最近梯度估计的运行平均值)。

在Pyro中，所有参数都可以在ParamStore。然而，PyTorch也通过parameters()...的方法nn.Module。因此，我们保存模型和指南参数的一个简单方法是使用state_dict()...的方法dmm共同torch.save()；见下文。在这种情况下AffineAutoregressive这是我们唯一的选择。这是因为AffineAutoregressive模块包含PyTorch术语中所谓的"持久缓冲区"。这些东西带有状态，但不是Parameter南这state_dict()和load_state_dict()的方法nn.Module知道如何正确处理缓冲液。

为了保存优化器的状态，我们必须使用pyro.optim.PyroOptim。回想一下，典型的用户从不与PyTorch直接交互Optimizers使用Pyro时；由于参数可以在任意概率程序中动态创建，Pyro需要管理Optimizers为了我们。在我们的例子中，保存优化器状态就像调用optimizer.save()。加载逻辑完全类似。因此，我们保存和加载检查点的整个逻辑只需要几行代码:

复制代码

# saves the model and optimizer states to disk
def save_checkpoint():
    log("saving model to %s..." % args.save_model)
    torch.save(dmm.state_dict(), args.save_model)
    log("saving optimizer states to %s..." % args.save_opt)
    optimizer.save(args.save_opt)
    log("done saving model and optimizer checkpoints to disk.")

# loads the model and optimizer states from disk
def load_checkpoint():
    assert exists(args.load_opt) and exists(args.load_model), \
        "--load-model and/or --load-opt misspecified"
    log("loading model from %s..." % args.load_model)
    dmm.load_state_dict(torch.load(args.load_model))
    log("loading optimizer states from %s..." % args.load_opt)
    optimizer.load(args.load_opt)
    log("done loading model and optimizer states.")

一些最后的评论¶

深度马尔可夫模型是一个相对复杂的模型。既然我们已经努力实现了一个为复调音乐数据集定制的深度马尔可夫模型版本，我们应该问问自己我们还能做什么。如果我们得到一个不同的序列数据集呢？我们必须从头开始吗？

一点也不！概率编程的美妙之处在于它支持------并鼓励------模块化的建模和推理方法。使我们的复调音乐模型适应具有连续观察的数据集就像改变观察可能性一样简单。绝大多数代码可以不加修改地被接管。这意味着，只要做一点额外的工作，本教程中的代码就可以重新用于支持各种不同的模型。

请参阅上的完整代码开源代码库.

参考¶

1\] `Structured Inference Networks for Nonlinear State Space Models`拉胡尔·克里希南、尤里·沙利特、戴维·桑塔格 \[2\] `Variational Inference with Normalizing Flows`、达尼洛·希门尼斯·雷森德、沙基尔·穆罕默德 \[3\] `Improving Variational Inference with Inverse Autoregressive Flow`、迪德里克·金马、蒂姆·萨利曼斯、拉斐尔·约泽福维茨、陈曦、伊利亚·苏茨基弗、马克斯·韦林 \[4\] `MADE: Masked Autoencoder for Distribution Estimation`马修·热尔曼，凯罗尔·格雷戈，伊恩·默里，雨果·拉罗彻尔 \[5\] `Modeling Temporal Dependencies in High-Dimensional Sequences:` `Application to Polyphonic Music Generation and Transcription`、布朗热-莱万多夫斯基、本吉奥和文森特 [以前的](https://pyro.ai/examples/vae_flow_prior.html "以前的") [然后](https://pyro.ai/examples/air.html "然后")