【NLP 计算句子之间的BLEU和ROUGE分数】

安装依赖

bash 复制代码
pip install nltk rouge-score

批量处理代码

python 复制代码
from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import nltk

# 下载必要的资源(第一次运行需要)
nltk.download('wordnet')  # 用于 BLEU 的 tokenizer 等
nltk.download('punkt')     # 用于 tokenize

def batch_bleu(references, candidates):
    """
    计算批量 BLEU 分数 (BLEU-4)
    
    Args:
        references: List of lists of reference sentences (每项是多个参考答案列表)
        candidates: List of candidate sentences (模型生成的句子列表)
    
    Returns:
        float: 平均 BLEU-4 分数
    """
    smoothing = SmoothingFunction()
    
    # 将每个参考句子 tokenize
    tokenized_references = [[nltk.word_tokenize(sent) for sent in ref] for ref in references]
    
    # 将每个候选句子 tokenize
    tokenized_candidates = [nltk.word_tokenize(sent) for sent in candidates]

    # 计算 corpus BLEU
    bleu_score = corpus_bleu(
        tokenized_references,
        tokenized_candidates,
        weights=(0.25, 0.25, 0.25, 0.25),
        smoothing_function=smoothing.method1
    )
    return bleu_score


def batch_rouge(references, candidates):
    """
    计算批量 ROUGE 分数 (ROUGE-1, ROUGE-2, ROUGE-L)
    
    Args:
        references: List of reference sentences (每个样本一个参考句)
        candidates: List of candidate sentences
    
    Returns:
        dict: {'rouge1': f1, 'rouge2': f1, 'rougeL': f1}
    """
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = {'rouge1': [], 'rouge2': [], 'rougeL': []}

    for ref, cand in zip(references, candidates):
        score = scorer.score(ref, cand)
        scores['rouge1'].append(score['rouge1'].fmeasure)
        scores['rouge2'].append(score['rouge2'].fmeasure)
        scores['rougeL'].append(score['rougeL'].fmeasure)

    avg_scores = {k: sum(v)/len(v) for k, v in scores.items()}
    return avg_scores


def evaluate_all(references, candidates):
    """
    同时计算 BLEU 和 ROUGE 的批量评估函数
    
    Args:
        references: List of reference sentences
        candidates: List of candidate sentences
    
    Returns:
        dict: 包含 BLEU 和 ROUGE 的平均分数
    """
    bleu = batch_bleu([[ref] for ref in references], candidates)
    rouge = batch_rouge(references, candidates)
    return {
        'BLEU': round(bleu, 4),
        'ROUGE-1': round(rouge['rouge1'], 4),
        'ROUGE-2': round(rouge['rouge2'], 4),
        'ROUGE-L': round(rouge['rougeL'], 4)
    }

测试代码

python 复制代码
# 示例数据:批量输入
references = [
    "the cat is on the mat",
    "a dog is playing in the garden"
]

candidates = [
    "the cat sat on the mat",
    "a dog plays in the garden"
]

# 调用评估函数
results = evaluate_all(references, candidates)
print("Evaluation Results:", results)

输出

python 复制代码
Evaluation Results: {'BLEU': 0.1966, 'ROUGE-1': 0.8782, 'ROUGE-2': 0.6636, 'ROUGE-L': 0.8782}
相关推荐
blackicexs6 分钟前
第九周第四天
人工智能·深度学习·机器学习
math_learning10 分钟前
方法思路推广|EG:基于机器学习的岩石坠落危害下桥梁脆弱性量化
人工智能·机器学习
Rubin智造社23 分钟前
# OpenClaude命令实战|核心控制三剑客/reasoning+/verbose+/status 实操指南
大数据·人工智能
码路高手25 分钟前
Trae-Agent中的Function Calling逻辑分析
人工智能·架构
小白_史蒂夫28 分钟前
【环境搭建】(九)飞桨EasyDL发布的模型转换onnx(附工程代码)
人工智能·paddlepaddle
星浩AI31 分钟前
现在最需要被 PUA 的,其实是 AI
人工智能·后端·github
superior tigre37 分钟前
CUDA算子开发(LLM方向)常见的一些术语
人工智能·加速推理
weixin_4639234239 分钟前
知网更新后,这4种降AI方法已失效!
人工智能
WenGyyyL1 小时前
ColBERT论文研读——NLP(IR)里程碑之作
人工智能·python·语言模型·自然语言处理
彩旗工作室1 小时前
Cursor 全面深度指南:从诞生到实战,AI 编程时代的终极武器
人工智能·ai编程