【NLP】14. NLP推理方法详解 --- beam search 束搜索以及 graph search 图搜索

Beam Search

在自然语言处理（NLP）任务中，Beam Search（束搜索是一种比贪心搜索（Greedy Search）更强大的解码方法。它能够同时保留多个候选结果，并在搜索过程中选择最优的路径，从而提高生成文本的质量。

1. Beam Search 的核心思想

Beam Search 的核心思想是在每一步都保留 K 个最优候选序列（K 称为 Beam Width，即"束宽"）。在每一步：

扩展：对于每个当前候选序列，计算下一个单词的所有可能选项。
筛选：从所有扩展的序列中，选择 K 个概率最高的序列，丢弃剩下的。

相比贪心搜索（只保留一个最佳选项），Beam Search 可以探索多个可能的路径，从而提高输出质量。

2. 详细案例：机器翻译（Machine Translation）

假设我们要翻译句子 "I love NLP"，我们的目标是生成最可能的法语翻译。

假设模型的输出概率如下：

单词	可能翻译	概率
I	["Je" (0.8), "Moi" (0.2)]
love	["aime" (0.7), "adore" (0.3)]
NLP	["NLP" (0.5), "traitement du langage" (0.5)]

(1) 贪心搜索

Step 1: "I" -> 选择 "Je"（概率最高 0.8）
Step 2: "love" -> 选择 "aime"（概率最高 0.7）
Step 3: "NLP" -> 选择 "NLP"（概率最高 0.5）

最终翻译结果："Je aime NLP"（得分 = 0.8 × 0.7 × 0.5 = 0.28）

(2) Beam Search (K=2)

Beam Width K=2，意味着我们每一步保留两个最有可能的序列。

Step 1: 选择 "I" 的翻译
- 候选项：
  - "Je" (0.8)
  - "Moi" (0.2)
Step 2: 选择 "love" 的翻译
- 对 "Je"：
  - "Je aime" (0.8 × 0.7 = 0.56)
  - "Je adore" (0.8 × 0.3 = 0.24)
- 对 "Moi"：
  - "Moi aime" (0.2 × 0.7 = 0.14)
  - "Moi adore" (0.2 × 0.3 = 0.06)
筛选出最优 K=2 选项：
- "Je aime" (0.56)
- "Je adore" (0.24)
Step 3: 选择 "NLP" 的翻译
- 对 "Je aime"：
  - "Je aime NLP" (0.56 × 0.5 = 0.28)
  - "Je aime traitement du langage" (0.56 × 0.5 = 0.28)
- 对 "Je adore"：
  - "Je adore NLP" (0.24 × 0.5 = 0.12)
  - "Je adore traitement du langage" (0.24 × 0.5 = 0.12)

最终选出最高概率的 K=2：

"Je aime NLP" (0.28)
"Je aime traitement du langage" (0.28)

最终 Beam Search 生成的翻译结果：

"Je aime NLP"
"Je aime traitement du langage"

相比于贪心搜索，Beam Search 发现了更流畅的翻译 "Je aime traitement du langage"，而不是 "Je aime NLP"。

3. 何时可以提前终止？

在 Beam Search 过程中，如果当前最优解的得分已经远高于剩下的所有候选项，则可以提前终止搜索。例如：

若 K=5，但第 1 个候选项的概率远高于第 2-5 个，我们可以减少计算量，提前停止。

4. Beam Search 的变体

Beam Search 有几个重要的优化版本，以解决一些潜在问题。

(1) 长度惩罚（Length Penalty）

问题：Beam Search 可能偏向于短句，因为概率是累乘的，句子越长，概率越小。
解决方案：给较长的句子增加分数：

adjusted score = P ( sequence ) length α \text{adjusted score} = \frac{P(\text{sequence})}{\text{length}^\alpha} adjusted score=lengthαP(sequence)

其中，α 是一个超参数，控制对短句的惩罚力度。

(2) 覆盖惩罚（Coverage Penalty）

问题：翻译时，Beam Search 可能会遗漏某些关键信息（如主语、宾语）。
解决方案：引入覆盖率惩罚，鼓励模型更全面地翻译每个输入词。

5. 如何高效选择 Top-K 候选项？

在 Beam Search 中，每一步都会生成多个候选项，并需要筛选出 K 个最优选项。不同的方法会影响效率。

方法 1：简单排序法 O(nK)

方法：遍历所有候选项，将新项插入列表中并排序。
优点：实现简单。
缺点：排序耗时，效率较低。

方法 2：堆（Heap）方法 O(n log K)

方法：使用最小堆（min-heap）存储 K 个最优候选项，每次插入新候选项后维护堆结构。
优点：更高效，适合 K 较小的情况。
缺点：需要使用数据结构，代码复杂度增加。

方法 3：快速选择（Quickselect） O(n)

方法：记录所有候选项，使用快速选择（Quickselect）找到 K 个最佳选项，遍历一次数据，找到其他 K-1 个最优项。
优点：时间复杂度最低。
缺点：实现复杂度较高，通常 K 较小时不值得使用。

一般来说，K 很小（如 5、10），不同方法的性能差距不大，因此排序或堆方法通常就足够了。

6. Beam Search 的局限性

虽然 Beam Search 比贪心搜索更强大，但仍然有一些缺点：

仍然是局部最优 ：Beam Search 只考虑 K 个选项，可能仍然会错过真正的最佳解。
缺乏多样性 ：如果 K 过小，所有输出可能会非常相似。
计算量大 ：K 过大时，计算复杂度会快速增加。

解决方案 ：结合 Top-K 采样 、Top-P 采样 或 对比采样（Contrastive Sampling），可以进一步提升文本生成质量。

7. 总结

方法	计算量	质量	适用场景
贪心搜索	低	容易错过最优解	翻译、摘要
Beam Search	中等	能找到更优解，但仍可能局部最优	机器翻译、文本生成
Beam Search + 长度惩罚	高	改善长句生成	文章生成

图搜索在文本生成中的应用（基于评分估计）

图搜索（Graph Search）技术在自然语言处理（NLP）任务中可以有效应用于文本生成任务，如机器翻译、文本摘要或对话生成。图搜索方法通过在搜索过程中估计最终得分，并用该得分来引导生成，帮助生成最有可能的输出。

这一思想与 A* 搜索算法 类似，后者通常用于路径规划问题，寻找最短路径。但在文本生成任务中，我们并不是寻找最短路径，而是希望最大化得分，得分可以代表多个因素，如语言流畅性、上下文一致性、语法正确性等。

1. 图搜索的核心概念

在图搜索中，我们的目标是从一个起始点（例如句子的开头）到达一个目标点（例如句子的结尾）。而在文本生成任务中，"图" 的每个节点代表一个词，边代表词与词之间的生成关系。通过搜索图，我们尝试生成一条得分最高的路径。

估算最终得分：

每个生成的文本序列都会有一个局部的得分，这个得分可以基于模型的输出概率或者一些自定义的评分函数。为了引导生成过程，图搜索不仅考虑当前节点的得分，还会结合对未来节点的预估得分（即最终得分）来指导搜索过程。

**2. 与 A* 搜索算法的比较**

图搜索与 A* 搜索算法的工作原理非常相似，不同之处在于目标和评分方式：

A* 搜索：通常用于路径规划问题，目标是寻找一条从起点到终点的最短路径。A* 搜索通过启发式函数估算从当前节点到终点的最短路径长度。
图搜索（在文本生成中的应用）：目标是生成一个得分最高的文本序列，而不是寻找最短路径。这里的得分通常基于当前文本的概率、语法正确性、流畅性等因素。

3. 图搜索在文本生成中的应用

在文本生成任务中，图搜索可以帮助我们从所有可能的生成路径中选择最优的输出序列。具体步骤如下：

步骤 1：初始化

初始节点是起始符号 <START>。
每个节点代表一个词或子词，节点之间的边代表词语生成的关系。

步骤 2：扩展节点

对于当前的每个节点（即当前生成的部分文本），模型会计算出可能的下一个词，并估算这个词的生成概率。

步骤 3：估算未来得分

为了引导生成过程，我们需要估算每条路径的未来得分。通常可以通过启发式方法估算这个得分，例如使用某种模型来预测剩余序列的得分，或者使用历史信息（例如已生成的部分序列的得分）。

估算方法：
- 基于概率的估算：例如使用语言模型的概率输出（如条件概率）来估算每个词序列的未来得分。
- 基于模型的估算：有些复杂的方法会使用神经网络模型（例如基于强化学习的模型）来预测一个给定节点后续的得分。

步骤 4：选择最优路径

在图搜索过程中，我们保留得分最高的候选路径，逐步推进生成。这个过程通常通过 Beam Search 结合启发式得分估算来完成。

在 Beam Search 中，我们保留多个候选路径，每一步扩展时，计算并保留得分最优的 K 条路径。通过这种方式，我们可以有效地避免陷入局部最优解。

步骤 5：终止条件

当生成的序列满足某些终止条件（如出现 <EOS> 结束符，或达到最大长度限制）时，停止生成。
在某些情况下，如果当前路径的得分已经远高于其他候选路径时，可以提前停止，减少计算量。

4. 如何高效实现图搜索？

为了高效地实现图搜索，尤其是在较大的生成空间中，我们通常会使用一些优化策略：

启发式得分估算：通过启发式方法预估未来得分，避免完全依赖当前路径的概率。
剪枝（Pruning）：在搜索过程中，剪去那些得分远低于其他候选路径的分支，减少计算量。
Beam Search + A*：结合 Beam Search 和 A* 搜索，通过保留 K 条路径并估算它们的未来得分，从而更加高效地搜索最优路径。

5. 示例：基于图搜索的机器翻译

假设我们正在进行机器翻译，目标是将英语句子 "I love NLP" 翻译成法语。

起始状态 ：<START>。
扩展状态：我们生成所有可能的词汇，如 "Je"（0.8）、"Moi"（0.2）等，并计算其概率。
估算未来得分：我们为每个候选路径预测未来生成的概率。
选择最优路径：我们根据当前得分和未来得分的估算，选择得分最高的路径。

最终，图搜索将帮助我们选择出最佳的法语翻译。

【NLP】14. NLP推理方法详解 --- beam search 束搜索 以及 graph search 图搜索