11.大模型评估

文章目录

- - 1.传统机器学习模型评估指标
  - 2.自然语言处理评估指标-BLEU分数
  - - [2.0 举例](#2.0 举例)
    - [2.1 计算n-gram的精确度 P n P_{n} Pn](#2.1 计算n-gram的精确度 P n P_{n} Pn)
    - [2.2 BP (Brevity Penalty) 惩罚因子](#2.2 BP (Brevity Penalty) 惩罚因子)
    - [2.3 计算BLEU分数](#2.3 计算BLEU分数)
  - [3.自然语言处理评估指标 - Perplexity困惑度](#3.自然语言处理评估指标 - Perplexity困惑度)
  - 4.LLM生成式模型评估指标
  - 5.金融LLM评估数据集
  - 6.金融大语言模型性能评测维度

1.传统机器学习模型评估指标

预测:混淆矩阵	真实值:Positive	真实值:Negative
Positive	TP	FP(假警报)
Negative	FN(漏报)	TN

指标	说明	适用场景
准确率	预测正确的样本占总样本的比例。 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN	类别均衡的分类任务。
精确率	预测为正类的样本中，真正为正类的比例。 P r e c i s i o n = T P T P + T N + F P + F N Precision=\frac{TP}{TP+TN+FP+FN} Precision=TP+TN+FP+FNTP	关注"假阳性"，如垃圾邮件识别。
召回率	真实为正类的样本中，被正确预测出来的比例。 $Recall = \\frac{TP}{TP+FN}$	关注"假阴性"，如疾病诊断、信息检索。
F1 分数	精确率和召回率的调和平均数，是综合性能的指标。 $F1Score=\\frac{2 × Precision × Recall}{P r e c i s i o n + R e c a l l}$	类别不均衡或需要平衡精确率与召回率时。

2.自然语言处理评估指标-BLEU分数

n- gram:它是一种基于概率的模型.用来预测在一个词序列(句子)中,下一个词出现的可能性

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp(\sum_{n=1}^{N}W_{n}\log P_{n}) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

BP (Brevity Penalty) 惩罚因子,防止生成文本过短
P n P_{n} Pn 生成文本中n-gram的精确度
W n W_{n} Wn n-gram的权重
N 是n-gram的最大长度

2.0 举例

• 生成文本: The cat is on the mat

• 参考文本: There is a cat on the mat

2.1 计算n-gram的精确度 P n P_{n} Pn

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log\boxed{P_{n}}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

1-gram

The, cat, is, on, the, mat\] \[There, is, a, cat, on, the, mat

cat, is, on, the, mat

P n = 匹配的 1 − gram数量生成文本的 1 − gram总数量 = 5 6 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}}=\frac{5}{6} Pn=生成文本的1−gram总数量匹配的1−gram数量=65

2-gram

The cat, cat is, is on, on the, the, mat\] \[There is, is a, a cat, cat on, on the, the mat

on the, the mat

P n = 匹配的 1 − gram数量生成文本的 1 − gram总数量 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}} Pn=生成文本的1−gram总数量匹配的1−gram数量

2.2 BP (Brevity Penalty) 惩罚因子

B L E U 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) BLEU\text{分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU分数=BP⋅exp(n=1∑NWnlogPn)

B P = { 1 如果 c > r c 是生成文本的长度 e ( 1 − r / c ) 如果 c ≤ r r 是参考文本的长度 BP=\begin{cases}1&\text{如果}c>r\ c\text{是生成文本的长度} \\ e^{(1-r/c)}&\text{如果}c≤r\ r\text{是参考文本的长度}\end{cases} BP={1e(1−r/c)如果c>r c是生成文本的长度如果c≤r r是参考文本的长度

B P = e ( 1 − r / c ) = e ( 1 − 7 / 6 ) = e − 1 / 6 ≈ 0.85 BP=e^{(1-r/c)}=e^{(1-7/6)}=e^{-1/6}\approx 0.85 BP=e(1−r/c)=e(1−7/6)=e−1/6≈0.85

2.3 计算BLEU分数

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

B L E U = 0.85 × exp ⁡ ( 0.5 × 5 6 + 0.5 × 2 5 ) ≈ 0.491 BLEU=0.85×\exp\left(0.5×\frac{5}{6}+0.5×\frac{2}{5}\right)\approx 0.491 BLEU=0.85×exp(0.5×65+0.5×52)≈0.491

3.自然语言处理评估指标 - Perplexity困惑度

困惑度越高代表预测越不确定
困惑度越低越能准确预测测试数据

P e r p l e x i t y = 2 − 1 N ∑ i = 1 N log ⁡ 2 P ( w i ∣ w 1 , w 2 , w 3 , ... , w i − 1 ) Perplexity=2^{-\frac{1}{N}\sum_{i=1}^{N}\log_{2}P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})} Perplexity=2−N1∑i=1Nlog2P(wi∣w1,w2,w3,...,wi−1)

w_{1},w_{2},w_{3},\dotsc ,w_{i-1}代表测试序列
P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})对第i个词的预测概率
N是测试序列中的总词数

4.LLM生成式模型评估指标

生成质量

Perplexity困惑度
人工评估流畅性、相关性和逻辑性
BLEU分数

多样性

Distinct-n衡量生成文本中独特n-grams比例
Repetition Rate重复率分析,越低多样性越高
生成样本熵Entropy分析,熵越高多样性高

覆盖率

基于n-gram的覆盖率,衡量生成文本与参考文本之间的n-grams交集比例
基于重要信息的覆盖率 Rouge，特别适合摘要任务
语义覆盖率，比较生成文本和参考文本词嵌入的相似性

5.金融LLM评估数据集

FPB数据集:评价金融类新闻情感倾向，数据集来自于赫尔辛基OMX交易所所有上市公司的英文新闻组成。
TFNS:基于Twitter的财经新闻数据集，用于评价情感倾向
DISC-Fin-Eval-Benchmark:金融NLP任务、人类试题、资料分析和时事分析四个部分，全面证明模型能力和训练数据的有效性。
FinanceIQ:金融领域的中文评估数据集，重点评估大语言模型在金融场景下的知识和推理能力。

6.金融大语言模型性能评测维度

语言理解
逻辑推理
数学推理
情感分析(FBB数据集)
风险评估
知识(FinanceIQ数据集)