11.大模型评估

文章目录

1.传统机器学习模型评估指标

预测:混淆矩阵 真实值:Positive 真实值:Negative
Positive TP FP(假警报)
Negative FN(漏报) TN
指标 说明 适用场景
准确率 预测正确的样本占总样本的比例。 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN 类别均衡的分类任务。
精确率 预测为正类的样本中,真正为正类的比例。 P r e c i s i o n = T P T P + T N + F P + F N Precision=\frac{TP}{TP+TN+FP+FN} Precision=TP+TN+FP+FNTP 关注"假阳性",如垃圾邮件识别。
召回率 真实为正类的样本中,被正确预测出来的比例。Recall = \\frac{TP}{TP+FN} 关注"假阴性",如疾病诊断、信息检索。
F1 分数 精确率和召回率的调和平均数,是综合性能的指标。 F1Score=\\frac{2 × Precision × Recall}{P r e c i s i o n + R e c a l l} 类别不均衡或需要平衡精确率与召回率时。

2.自然语言处理评估指标-BLEU分数

n- gram:它是一种基于概率的模型.用来预测在一个词序列(句子)中,下一个词出现的可能性

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp(\sum_{n=1}^{N}W_{n}\log P_{n}) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

  • BP (Brevity Penalty) 惩罚因子,防止生成文本过短
  • P n P_{n} Pn 生成文本中n-gram的精确度
  • W n W_{n} Wn n-gram的 权重
  • N 是n-gram的最大长度
2.0 举例

• 生成文本: The cat is on the mat

• 参考文本: There is a cat on the mat

2.1 计算n-gram的精确度 P n P_{n} Pn

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log\boxed{P_{n}}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

1-gram

The, cat, is, on, the, mat\] \[There, is, a, cat, on, the, mat

cat, is, on, the, mat

P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 = 5 6 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}}=\frac{5}{6} Pn=生成文本的1−gram总数量匹配的1−gram数量=65

2-gram

The cat, cat is, is on, on the, the, mat\] \[There is, is a, a cat, cat on, on the, the mat

on the, the mat

P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}} Pn=生成文本的1−gram总数量匹配的1−gram数量

2.2 BP (Brevity Penalty) 惩罚因子

B L E U 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) BLEU\text{分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU分数=BP⋅exp(n=1∑NWnlogPn)

B P = { 1 如果 c > r c 是生成文本的长度 e ( 1 − r / c ) 如果 c ≤ r r 是参考文本的长度 BP=\begin{cases}1&\text{如果}c>r\ c\text{是生成文本的长度} \\ e^{(1-r/c)}&\text{如果}c≤r\ r\text{是参考文本的长度}\end{cases} BP={1e(1−r/c)如果c>r c是生成文本的长度如果c≤r r是参考文本的长度

B P = e ( 1 − r / c ) = e ( 1 − 7 / 6 ) = e − 1 / 6 ≈ 0.85 BP=e^{(1-r/c)}=e^{(1-7/6)}=e^{-1/6}\approx 0.85 BP=e(1−r/c)=e(1−7/6)=e−1/6≈0.85

2.3 计算BLEU分数

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

B L E U = 0.85 × exp ⁡ ( 0.5 × 5 6 + 0.5 × 2 5 ) ≈ 0.491 BLEU=0.85×\exp\left(0.5×\frac{5}{6}+0.5×\frac{2}{5}\right)\approx 0.491 BLEU=0.85×exp(0.5×65+0.5×52)≈0.491

3.自然语言处理评估指标 - Perplexity困惑度

  • 困惑度越高代表预测越不确定
  • 困惑度越低越能准确预测测试数据

P e r p l e x i t y = 2 − 1 N ∑ i = 1 N log ⁡ 2 P ( w i ∣ w 1 , w 2 , w 3 , ... , w i − 1 ) Perplexity=2^{-\frac{1}{N}\sum_{i=1}^{N}\log_{2}P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})} Perplexity=2−N1∑i=1Nlog2P(wi∣w1,w2,w3,...,wi−1)

  • w_{1},w_{2},w_{3},\dotsc ,w_{i-1}代表测试序列
  • P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})对第i个词的预测概率
  • N是测试序列中的总词数

4.LLM生成式模型评估指标

生成质量

  • Perplexity困惑度
  • 人工评估流畅性、相关性和逻辑性
  • BLEU分数

多样性

  • Distinct-n衡量生成文本中独特n-grams比例
  • Repetition Rate重复率分析,越低多样性越高
  • 生成样本熵Entropy分析,熵越高多样性高

覆盖率

  • 基于n-gram的覆盖率,衡量生成文本与参考文本之间的n-grams交集比例
  • 基于重要信息的覆盖率 Rouge,特别适合摘要任务
  • 语义覆盖率,比较生成文本和参考文本词嵌入的相似性

5.金融LLM评估数据集

  • FPB数据集:评价金融类新闻情感倾向,数据集来自于赫尔辛基OMX交易所所有上市公司的英文新闻组成。
  • TFNS:基于Twitter的财经新闻数据集,用于评价情感倾向
  • DISC-Fin-Eval-Benchmark:金融NLP任务、人类试题、资料分析和时事分析四个部分,全面证明模型能力和训练数据的有效性。
  • FinanceIQ:金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力。

6.金融大语言模型性能评测维度

  • 语言理解

  • 逻辑推理

  • 数学推理

  • 情感分析(FBB数据集)

  • 风险评估

  • 知识(FinanceIQ数据集)

相关推荐
arvin_xiaoting1 小时前
OpenClaw学习总结_I_核心架构系列_Gateway架构详解
学习·架构·llm·gateway·ai-agent·飞书机器人·openclaw
arvin_xiaoting1 小时前
OpenClaw学习总结_I_核心架构系列_AgentLoop详解
java·学习·架构·llm·ai-agent·飞书机器人·openclaw
huazi-J2 小时前
Datawhale openclaw 课程 task2:clawX本地openclaw使用skill
llm·datawhale·openclaw·龙虾
啊阿狸不会拉杆3 小时前
《现代人工智能基础》个人解读分享
人工智能·ai·llm·aigc·agent·ml·dl
弗锐土豆3 小时前
使用ollama运行本地大模型
llm·大语言模型·安装·ollama
华农DrLai3 小时前
什么是自动Prompt优化?为什么需要算法来寻找最佳提示词?
人工智能·算法·llm·nlp·prompt·llama
洛阳泰山17 小时前
MaxKB4j Docker Compose 部署指南
java·docker·llm·springboot·rag·maxkb4j
jjinl17 小时前
1.1 llama.cpp 编译
llama
serve the people17 小时前
macbook m4 LLaMA-Factory入门级微调
llama
cuguanren20 小时前
MuleRun vs OpenClaw vs 网页服务:云端安全与本地自由的取舍之道
安全·大模型·llm·agent·智能体·openclaw·mulerun