【NLP 计算句子之间的BLEU和ROUGE分数】

安装依赖

bash 复制代码
pip install nltk rouge-score

批量处理代码

python 复制代码
from nltk.translate.bleu_score import corpus_bleu, SmoothingFunction
from rouge_score import rouge_scorer
import nltk

# 下载必要的资源(第一次运行需要)
nltk.download('wordnet')  # 用于 BLEU 的 tokenizer 等
nltk.download('punkt')     # 用于 tokenize

def batch_bleu(references, candidates):
    """
    计算批量 BLEU 分数 (BLEU-4)
    
    Args:
        references: List of lists of reference sentences (每项是多个参考答案列表)
        candidates: List of candidate sentences (模型生成的句子列表)
    
    Returns:
        float: 平均 BLEU-4 分数
    """
    smoothing = SmoothingFunction()
    
    # 将每个参考句子 tokenize
    tokenized_references = [[nltk.word_tokenize(sent) for sent in ref] for ref in references]
    
    # 将每个候选句子 tokenize
    tokenized_candidates = [nltk.word_tokenize(sent) for sent in candidates]

    # 计算 corpus BLEU
    bleu_score = corpus_bleu(
        tokenized_references,
        tokenized_candidates,
        weights=(0.25, 0.25, 0.25, 0.25),
        smoothing_function=smoothing.method1
    )
    return bleu_score


def batch_rouge(references, candidates):
    """
    计算批量 ROUGE 分数 (ROUGE-1, ROUGE-2, ROUGE-L)
    
    Args:
        references: List of reference sentences (每个样本一个参考句)
        candidates: List of candidate sentences
    
    Returns:
        dict: {'rouge1': f1, 'rouge2': f1, 'rougeL': f1}
    """
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = {'rouge1': [], 'rouge2': [], 'rougeL': []}

    for ref, cand in zip(references, candidates):
        score = scorer.score(ref, cand)
        scores['rouge1'].append(score['rouge1'].fmeasure)
        scores['rouge2'].append(score['rouge2'].fmeasure)
        scores['rougeL'].append(score['rougeL'].fmeasure)

    avg_scores = {k: sum(v)/len(v) for k, v in scores.items()}
    return avg_scores


def evaluate_all(references, candidates):
    """
    同时计算 BLEU 和 ROUGE 的批量评估函数
    
    Args:
        references: List of reference sentences
        candidates: List of candidate sentences
    
    Returns:
        dict: 包含 BLEU 和 ROUGE 的平均分数
    """
    bleu = batch_bleu([[ref] for ref in references], candidates)
    rouge = batch_rouge(references, candidates)
    return {
        'BLEU': round(bleu, 4),
        'ROUGE-1': round(rouge['rouge1'], 4),
        'ROUGE-2': round(rouge['rouge2'], 4),
        'ROUGE-L': round(rouge['rougeL'], 4)
    }

测试代码

python 复制代码
# 示例数据:批量输入
references = [
    "the cat is on the mat",
    "a dog is playing in the garden"
]

candidates = [
    "the cat sat on the mat",
    "a dog plays in the garden"
]

# 调用评估函数
results = evaluate_all(references, candidates)
print("Evaluation Results:", results)

输出

python 复制代码
Evaluation Results: {'BLEU': 0.1966, 'ROUGE-1': 0.8782, 'ROUGE-2': 0.6636, 'ROUGE-L': 0.8782}
相关推荐
失散1311 分钟前
自然语言处理——02 文本预处理(下)
人工智能·自然语言处理
mit6.82435 分钟前
[1Prompt1Story] 滑动窗口机制 | 图像生成管线 | VAE变分自编码器 | UNet去噪神经网络
人工智能·python
sinat_2869451940 分钟前
AI应用安全 - Prompt注入攻击
人工智能·安全·prompt
迈火2 小时前
ComfyUI-3D-Pack:3D创作的AI神器
人工智能·gpt·3d·ai·stable diffusion·aigc·midjourney
Moshow郑锴3 小时前
机器学习的特征工程(特征构造、特征选择、特征转换和特征提取)详解
人工智能·机器学习
CareyWYR3 小时前
每周AI论文速递(250811-250815)
人工智能
AI精钢3 小时前
H20芯片与中国的科技自立:一场隐形的博弈
人工智能·科技·stm32·单片机·物联网
whaosoft-1434 小时前
51c自动驾驶~合集14
人工智能
Jinkxs4 小时前
自动化测试的下一站:AI缺陷检测工具如何实现“bug提前预警”?
人工智能·自动化
小幽余生不加糖4 小时前
电路方案分析(二十二)适用于音频应用的25-50W反激电源方案
人工智能·笔记·学习·音视频