文章目录
-
-
- 1.传统机器学习模型评估指标
- 2.自然语言处理评估指标-BLEU分数
-
- [2.0 举例](#2.0 举例)
- [2.1 计算n-gram的精确度 P n P_{n} Pn](#2.1 计算n-gram的精确度 P n P_{n} Pn)
- [2.2 BP (Brevity Penalty) 惩罚因子](#2.2 BP (Brevity Penalty) 惩罚因子)
- [2.3 计算BLEU分数](#2.3 计算BLEU分数)
- [3.自然语言处理评估指标 - Perplexity困惑度](#3.自然语言处理评估指标 - Perplexity困惑度)
- 4.LLM生成式模型评估指标
- 5.金融LLM评估数据集
- 6.金融大语言模型性能评测维度
-
1.传统机器学习模型评估指标
| 预测:混淆矩阵 | 真实值:Positive | 真实值:Negative |
|---|---|---|
| Positive | TP | FP(假警报) |
| Negative | FN(漏报) | TN |
| 指标 | 说明 | 适用场景 |
|---|---|---|
| 准确率 | 预测正确的样本占总样本的比例。 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN | 类别均衡的分类任务。 |
| 精确率 | 预测为正类的样本中,真正为正类的比例。 P r e c i s i o n = T P T P + T N + F P + F N Precision=\frac{TP}{TP+TN+FP+FN} Precision=TP+TN+FP+FNTP | 关注"假阳性",如垃圾邮件识别。 |
| 召回率 | 真实为正类的样本中,被正确预测出来的比例。Recall = \\frac{TP}{TP+FN} | 关注"假阴性",如疾病诊断、信息检索。 |
| F1 分数 | 精确率和召回率的调和平均数,是综合性能的指标。 F1Score=\\frac{2 × Precision × Recall}{P r e c i s i o n + R e c a l l} | 类别不均衡或需要平衡精确率与召回率时。 |
2.自然语言处理评估指标-BLEU分数
n- gram:它是一种基于概率的模型.用来预测在一个词序列(句子)中,下一个词出现的可能性
BLEU 分数 = B P ⋅ exp ( ∑ n = 1 N W n log P n ) \text{BLEU 分数}=BP\cdot\exp(\sum_{n=1}^{N}W_{n}\log P_{n}) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)
- BP (Brevity Penalty) 惩罚因子,防止生成文本过短
- P n P_{n} Pn 生成文本中n-gram的精确度
- W n W_{n} Wn n-gram的 权重
- N 是n-gram的最大长度
2.0 举例
• 生成文本: The cat is on the mat
• 参考文本: There is a cat on the mat
2.1 计算n-gram的精确度 P n P_{n} Pn
BLEU 分数 = B P ⋅ exp ( ∑ n = 1 N W n log P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log\boxed{P_{n}}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)
1-gram
The, cat, is, on, the, mat\] \[There, is, a, cat, on, the, mat
cat, is, on, the, mat
P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 = 5 6 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}}=\frac{5}{6} Pn=生成文本的1−gram总数量匹配的1−gram数量=65
2-gram
The cat, cat is, is on, on the, the, mat\] \[There is, is a, a cat, cat on, on the, the mat
on the, the mat
P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}} Pn=生成文本的1−gram总数量匹配的1−gram数量
2.2 BP (Brevity Penalty) 惩罚因子
B L E U 分数 = B P ⋅ exp ( ∑ n = 1 N W n log P n ) BLEU\text{分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU分数=BP⋅exp(n=1∑NWnlogPn)
B P = { 1 如果 c > r c 是生成文本的长度 e ( 1 − r / c ) 如果 c ≤ r r 是参考文本的长度 BP=\begin{cases}1&\text{如果}c>r\ c\text{是生成文本的长度} \\ e^{(1-r/c)}&\text{如果}c≤r\ r\text{是参考文本的长度}\end{cases} BP={1e(1−r/c)如果c>r c是生成文本的长度如果c≤r r是参考文本的长度
B P = e ( 1 − r / c ) = e ( 1 − 7 / 6 ) = e − 1 / 6 ≈ 0.85 BP=e^{(1-r/c)}=e^{(1-7/6)}=e^{-1/6}\approx 0.85 BP=e(1−r/c)=e(1−7/6)=e−1/6≈0.85
2.3 计算BLEU分数
BLEU 分数 = B P ⋅ exp ( ∑ n = 1 N W n log P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)
B L E U = 0.85 × exp ( 0.5 × 5 6 + 0.5 × 2 5 ) ≈ 0.491 BLEU=0.85×\exp\left(0.5×\frac{5}{6}+0.5×\frac{2}{5}\right)\approx 0.491 BLEU=0.85×exp(0.5×65+0.5×52)≈0.491
3.自然语言处理评估指标 - Perplexity困惑度
- 困惑度越高代表预测越不确定
- 困惑度越低越能准确预测测试数据
P e r p l e x i t y = 2 − 1 N ∑ i = 1 N log 2 P ( w i ∣ w 1 , w 2 , w 3 , ... , w i − 1 ) Perplexity=2^{-\frac{1}{N}\sum_{i=1}^{N}\log_{2}P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})} Perplexity=2−N1∑i=1Nlog2P(wi∣w1,w2,w3,...,wi−1)
- w_{1},w_{2},w_{3},\dotsc ,w_{i-1}代表测试序列
- P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})对第i个词的预测概率
- N是测试序列中的总词数
4.LLM生成式模型评估指标
生成质量
- Perplexity困惑度
- 人工评估流畅性、相关性和逻辑性
- BLEU分数
多样性
- Distinct-n衡量生成文本中独特n-grams比例
- Repetition Rate重复率分析,越低多样性越高
- 生成样本熵Entropy分析,熵越高多样性高
覆盖率
- 基于n-gram的覆盖率,衡量生成文本与参考文本之间的n-grams交集比例
- 基于重要信息的覆盖率 Rouge,特别适合摘要任务
- 语义覆盖率,比较生成文本和参考文本词嵌入的相似性
5.金融LLM评估数据集
- FPB数据集:评价金融类新闻情感倾向,数据集来自于赫尔辛基OMX交易所所有上市公司的英文新闻组成。
- TFNS:基于Twitter的财经新闻数据集,用于评价情感倾向
- DISC-Fin-Eval-Benchmark:金融NLP任务、人类试题、资料分析和时事分析四个部分,全面证明模型能力和训练数据的有效性。
- FinanceIQ:金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力。
6.金融大语言模型性能评测维度
-
语言理解
-
逻辑推理
-
数学推理
-
情感分析(FBB数据集)
-
风险评估
-
知识(FinanceIQ数据集)