MT-Metrics - 技术栈

MT-Metrics 是一类用于评估生成文本质量的指标，最初用于机器翻译任务，后来扩展到生成任务（如对话生成、文本摘要等）。它的核心思想是通过比较生成文本与参考文本之间的相似性（如词汇重叠、句法结构、语义相似性）来评估生成质量。

原理

BLEU（Bilingual Evaluation Understudy）：
- 定义：BLEU 通过计算生成文本与参考文本之间的 n-gram 重叠程度来评估生成质量。
- 公式：
  BLEU = BP × exp ⁡ ( ∑ n = 1 N w n log ⁡ p n ) \text{BLEU} = \text{BP} \times \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) BLEU=BP×exp(n=1∑Nwnlogpn)
  其中：
  - BP \text{BP} BP 是 brevity penalty（惩罚过短的生成文本）。
  - p n p_n pn 是 n-gram 的精确率。
  - w n w_n wn 是权重。
- 示例：
  - 生成文本与参考文本有 4 个相同的单词，BLEU 分数会较高。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：
- 定义：ROUGE 通过计算生成文本与参考文本之间的词汇重叠（尤其是召回率）来评估生成质量。
- 公式：
  ROUGE = 生成文本与参考文本的词汇重叠数参考文本的词汇总数 \text{ROUGE} = \frac{\text{生成文本与参考文本的词汇重叠数}}{\text{参考文本的词汇总数}} ROUGE=参考文本的词汇总数生成文本与参考文本的词汇重叠数
- 示例：
  - 生成文本与参考文本有 5 个相同的单词，参考文本共有 10 个单词，则 ROUGE 分数为 50%。
METEOR：
- 定义：METEOR 结合精确匹配、同义词匹配和句法结构匹配，评估生成文本的质量。
- 公式：
  METEOR = 精确匹配数 + 同义词匹配数 + 句法匹配数生成文本的词汇总数 \text{METEOR} = \frac{\text{精确匹配数} + \text{同义词匹配数} + \text{句法匹配数}}{\text{生成文本的词汇总数}} METEOR=生成文本的词汇总数精确匹配数+同义词匹配数+句法匹配数
- 示例：
  - 生成文本与参考文本有 3 个精确匹配、2 个同义词匹配，生成文本共有 10 个单词，则 METEOR 分数为 50%。
BERTScore：
- 定义：BERTScore 基于预训练的 BERT 模型，计算生成文本与参考文本之间的语义相似性。
- 公式：
  BERTScore = 1 N ∑ i = 1 N cosine_similarity ( BERT ( w i ) , BERT ( w i ′ ) ) \text{BERTScore} = \frac{1}{N} \sum_{i=1}^{N} \text{cosine\_similarity}(\text{BERT}(w_i), \text{BERT}(w_i')) BERTScore=N1i=1∑Ncosine_similarity(BERT(wi),BERT(wi′))
  其中：
  - w i w_i wi 是生成文本的单词。
  - w i ′ w_i' wi′ 是参考文本的单词。
- 示例：
  - 生成文本与参考文本的语义相似性较高，BERTScore 分数较高。

适用场景

开放性问题：例如生成任务（对话生成、文本摘要、故事生成等）。
无标准答案的任务：例如创意写作、长文本生成等。