摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法（如top-p或top-k）通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架，并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体，以避免无限的困惑。在这种情况下，截断算法的目的是执行去平滑，估计真实分布的支持子集。找到一个好的子集至关重要：我们表明，top-p不必要地截断了高概率单词，例如，对于以Donald开头的文档，导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样，它在熵相关概率阈值以下截断单词。与以前的算法相比， η \eta η采样根据人类生成了更可信的长英文文档，更善于打破重复，并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑，这一见解引出了如何进行截断以恢复训练分布的原则，一种新的截断采样算法，以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估，以推动进一步的研究，了解和改进我们如何从神经语言模型中生成。

8 不足

通过我们所做的分析，我们认为很难理解截断采样算法（包括我们的算法）所具有的所有序列级影响：我们不允许使用什么类型的序列？哪些类型或来源的语言（在不知不觉中）被禁止？除此之外，我们只在英语模型上测试了我们的算法；形态丰富的语言的条件分布可能具有不同的性质（尤其是子词模型）。