【大模型】解码策略：Greedy Search、Beam Search、Top-k/Top-p、Temperature Sampling等

解码策略：从Beam Search到Top-k/Top-p采样

在自然语言处理（NLP）的生成任务中，例如机器翻译、文本摘要、对话系统等，模型会输出一系列表示下一个词++概率的分布++ 。解码策略 （Decoding Strategy ）就是如何从这些概率分布中选择词语，最终生成一个连贯且高质量的序列。

一个好的解码策略不仅能让模型输出通顺的句子，还能兼顾多样性和创造性。本文将介绍几种常见的解码策略，从经典的贪心搜索到更先进的采样方法。

文章目录

[解码策略：从Beam Search到Top-k/Top-p采样](#解码策略：从Beam Search到Top-k/Top-p采样)
- [1. 贪心搜索 (Greedy Search)](#1. 贪心搜索 (Greedy Search))
- [2. Beam Search (集束搜索)](#2. Beam Search (集束搜索))
- [3. 采样策略 (Sampling Strategies)](#3. 采样策略 (Sampling Strategies))
- - [3.1. 随机采样 (Random Sampling)](#3.1. 随机采样 (Random Sampling))
  - [3.2. Top-k 采样 (Top-k Sampling)](#3.2. Top-k 采样 (Top-k Sampling))
  - [3.3. Top-p 采样 (Nucleus Sampling)](#3.3. Top-p 采样 (Nucleus Sampling))
- [4. 结合策略](#4. 结合策略)
- 总结

1. 贪心搜索 (Greedy Search)

贪心搜索 是最简单直接的解码策略。在每一步，它都选择当前所有词汇中概率最高的那个词作为下一个词，直到生成结束符或者达到最大长度。

优点：

简单高效： 计算成本最低，生成速度快。

缺点：

局部最优： 由于每一步都只关注当前最优，可能会错过全局最优解。一旦某个词的选择是错误的，后续的生成就会受到影响，导致最终结果不理想。
缺乏多样性： 每次都会生成最"安全"的句子，使得生成文本的重复性高，缺乏新意。

适用场景：

对生成质量要求不高，或追求极致生成速度的场景。

2. Beam Search (集束搜索)

Beam Search 是贪心搜索的改进版，它在每一步会保留 k 个（k 为 beam width ，集束宽度）当前概率最高的序列，而不是只保留一个。在每一步生成时，它会考虑这 k 个序列的扩展，并从所有扩展中选择概率最高的 k 个序列进入下一步。

**优点：

比贪心搜索更优： 有效地缓解了贪心搜索的局部最优问题，因为保留了多个路径，增加了找到高质量序列的可能性。
生成质量较高： 在机器翻译等任务中表现优异。

缺点：

计算成本更高： 需要维护和计算 k 个序列的概率，生成速度比贪心搜索慢。
缺乏多样性： 虽然比贪心搜索有所改善，但由于仍然倾向于选择高概率的序列，生成的文本多样性仍然不足，容易出现重复或"通用"的回答。
重复问题： 在某些情况下，Beam Search 可能会倾向于生成重复的短语或序列。

适用场景：

对生成质量要求较高，但对多样性要求不那么严格的场景，例如机器翻译。

3. 采样策略 (Sampling Strategies)

为了解决贪心搜索和Beam Search在多样性上的不足，研究者们提出了各种采样策略。这些策略不再总是选择概率最高的词，而是根据概率分布进行随机采样，从而引入更多随机性，增加生成文本的多样性。

3.1. 随机采样 (Random Sampling)

随机采样直接根据模型给出的概率分布进行采样。例如，如果词A的概率是0.7，词B的概率是0.3，那么有70%的概率选择词A，30%的概率选择词B。

优点：

多样性好： 能生成很多不同的文本。

缺点：

质量不稳定： 有时会采样到概率很低但语义上不合理的词，导致生成质量下降。

3.2. Top-k 采样 (Top-k Sampling)

为了缓解随机采样中生成低质量词的问题，Top-k 采样 只在概率最高的 k 个词中进行采样。模型会先将词汇表中的词按照概率从高到低排序，然后只保留前 k 个词，并对这 k 个词的概率进行重新归一化，再进行采样。

优点：

平衡质量与多样性： 既保证了生成文本的一定质量，又引入了随机性，增加了多样性。

缺点：

k 值选择困难： k 的选择对生成结果影响很大。k 太小可能导致多样性不足，k 太大则可能引入低质量的词。k 值的固定性使其无法自适应不同上下文的概率分布。

3.3. Top-p 采样 (Nucleus Sampling)

Top-p 采样 (也称为 Nucleus Sampling ) 是一种更灵活的采样策略。它不再固定采样数量 k，而是选择概率累积和达到 p 的最小词汇集合进行采样。例如，如果 p=0.9，模型会从那些累积概率达到90%的词中进行采样。

优点：

自适应性强： 能够根据当前概率分布的形状（平坦或尖锐）自适应地选择采样词汇的数量，更智能地平衡质量与多样性。
生成质量高： 通常能生成更流畅、更自然的文本。

缺点：

计算稍复杂： 需要对词汇进行排序和累积概率计算。

适用场景：

对生成文本的多样性和质量都有较高要求的场景，例如创意写作、对话生成等。

4. 结合策略

在实际应用中，有时还会将不同的解码策略结合起来使用，例如：

Temperature Sampling (温度采样): 在采样之前，通过调整"温度"参数来平滑或锐化概率分布。高温度会使分布更平坦，增加采样多样性；低温度会使分布更尖锐，更接近贪心搜索。温度采样可以与Top-k或Top-p采样结合使用。
带有惩罚项的解码： 为了避免生成重复的短语或单词，可以在解码过程中引入惩罚项，降低已生成单词的概率。

总结

选择合适的解码策略对于生成任务的最终效果至关重要。

如果你追求速度和局部最优 ，贪心搜索是一个选择。
如果你追求更高的质量和较好的表现 ，Beam Search 是一个常用的选择。
如果你追求文本的多样性和创造性 ，同时保持一定的质量，那么Top-k 采样 或Top-p 采样（尤其是Top-p采样）会是更好的选择。

随着生成模型的不断发展，未来可能会有更多高效且智能的解码策略涌现，它们将进一步提升模型的生成能力。理解这些解码策略的原理和优缺点，能帮助我们更好地利用生成模型，创造出更丰富、更自然的文本。