11.大模型评估

文章目录

1.传统机器学习模型评估指标

预测:混淆矩阵 真实值:Positive 真实值:Negative
Positive TP FP(假警报)
Negative FN(漏报) TN
指标 说明 适用场景
准确率 预测正确的样本占总样本的比例。 A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy=\frac{TP+TN}{TP+TN+FP+FN} Accuracy=TP+TN+FP+FNTP+TN 类别均衡的分类任务。
精确率 预测为正类的样本中,真正为正类的比例。 P r e c i s i o n = T P T P + T N + F P + F N Precision=\frac{TP}{TP+TN+FP+FN} Precision=TP+TN+FP+FNTP 关注"假阳性",如垃圾邮件识别。
召回率 真实为正类的样本中,被正确预测出来的比例。Recall = \\frac{TP}{TP+FN} 关注"假阴性",如疾病诊断、信息检索。
F1 分数 精确率和召回率的调和平均数,是综合性能的指标。 F1Score=\\frac{2 × Precision × Recall}{P r e c i s i o n + R e c a l l} 类别不均衡或需要平衡精确率与召回率时。

2.自然语言处理评估指标-BLEU分数

n- gram:它是一种基于概率的模型.用来预测在一个词序列(句子)中,下一个词出现的可能性

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp(\sum_{n=1}^{N}W_{n}\log P_{n}) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

  • BP (Brevity Penalty) 惩罚因子,防止生成文本过短
  • P n P_{n} Pn 生成文本中n-gram的精确度
  • W n W_{n} Wn n-gram的 权重
  • N 是n-gram的最大长度
2.0 举例

• 生成文本: The cat is on the mat

• 参考文本: There is a cat on the mat

2.1 计算n-gram的精确度 P n P_{n} Pn

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log\boxed{P_{n}}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

1-gram

The, cat, is, on, the, mat\] \[There, is, a, cat, on, the, mat

cat, is, on, the, mat

P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 = 5 6 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}}=\frac{5}{6} Pn=生成文本的1−gram总数量匹配的1−gram数量=65

2-gram

The cat, cat is, is on, on the, the, mat\] \[There is, is a, a cat, cat on, on the, the mat

on the, the mat

P n = 匹配的 1 − gram数量 生成文本的 1 − gram总数量 P_{n}=\frac{\text{匹配的}1-\text{gram数量}}{\text{生成文本的}1-\text{gram总数量}} Pn=生成文本的1−gram总数量匹配的1−gram数量

2.2 BP (Brevity Penalty) 惩罚因子

B L E U 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) BLEU\text{分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU分数=BP⋅exp(n=1∑NWnlogPn)

B P = { 1 如果 c > r c 是生成文本的长度 e ( 1 − r / c ) 如果 c ≤ r r 是参考文本的长度 BP=\begin{cases}1&\text{如果}c>r\ c\text{是生成文本的长度} \\ e^{(1-r/c)}&\text{如果}c≤r\ r\text{是参考文本的长度}\end{cases} BP={1e(1−r/c)如果c>r c是生成文本的长度如果c≤r r是参考文本的长度

B P = e ( 1 − r / c ) = e ( 1 − 7 / 6 ) = e − 1 / 6 ≈ 0.85 BP=e^{(1-r/c)}=e^{(1-7/6)}=e^{-1/6}\approx 0.85 BP=e(1−r/c)=e(1−7/6)=e−1/6≈0.85

2.3 计算BLEU分数

BLEU 分数 = B P ⋅ exp ⁡ ( ∑ n = 1 N W n log ⁡ P n ) \text{BLEU 分数}=BP\cdot\exp\left(\sum_{n=1}^{N}W_{n}\log P_{n}\right) BLEU 分数=BP⋅exp(n=1∑NWnlogPn)

B L E U = 0.85 × exp ⁡ ( 0.5 × 5 6 + 0.5 × 2 5 ) ≈ 0.491 BLEU=0.85×\exp\left(0.5×\frac{5}{6}+0.5×\frac{2}{5}\right)\approx 0.491 BLEU=0.85×exp(0.5×65+0.5×52)≈0.491

3.自然语言处理评估指标 - Perplexity困惑度

  • 困惑度越高代表预测越不确定
  • 困惑度越低越能准确预测测试数据

P e r p l e x i t y = 2 − 1 N ∑ i = 1 N log ⁡ 2 P ( w i ∣ w 1 , w 2 , w 3 , ... , w i − 1 ) Perplexity=2^{-\frac{1}{N}\sum_{i=1}^{N}\log_{2}P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})} Perplexity=2−N1∑i=1Nlog2P(wi∣w1,w2,w3,...,wi−1)

  • w_{1},w_{2},w_{3},\dotsc ,w_{i-1}代表测试序列
  • P(w_{i}|w_{1},w_{2},w_{3},\dotsc ,w_{i-1})对第i个词的预测概率
  • N是测试序列中的总词数

4.LLM生成式模型评估指标

生成质量

  • Perplexity困惑度
  • 人工评估流畅性、相关性和逻辑性
  • BLEU分数

多样性

  • Distinct-n衡量生成文本中独特n-grams比例
  • Repetition Rate重复率分析,越低多样性越高
  • 生成样本熵Entropy分析,熵越高多样性高

覆盖率

  • 基于n-gram的覆盖率,衡量生成文本与参考文本之间的n-grams交集比例
  • 基于重要信息的覆盖率 Rouge,特别适合摘要任务
  • 语义覆盖率,比较生成文本和参考文本词嵌入的相似性

5.金融LLM评估数据集

  • FPB数据集:评价金融类新闻情感倾向,数据集来自于赫尔辛基OMX交易所所有上市公司的英文新闻组成。
  • TFNS:基于Twitter的财经新闻数据集,用于评价情感倾向
  • DISC-Fin-Eval-Benchmark:金融NLP任务、人类试题、资料分析和时事分析四个部分,全面证明模型能力和训练数据的有效性。
  • FinanceIQ:金融领域的中文评估数据集,重点评估大语言模型在金融场景下的知识和推理能力。

6.金融大语言模型性能评测维度

  • 语言理解

  • 逻辑推理

  • 数学推理

  • 情感分析(FBB数据集)

  • 风险评估

  • 知识(FinanceIQ数据集)

相关推荐
人工干智能3 小时前
OpenAI中,索引取值与点取值:message.content[0].text.value
llm
太空眼睛4 小时前
【MCP】使用SpringBoot基于Streamable-HTTP构建MCP-Client
spring boot·ai·llm·sse·mcp·mcp-client·streamable
小霖家的混江龙4 小时前
不再费脑, 拆解 AI 的数学工具, 诠释函数, 向量, 矩阵和神经网络的关系
人工智能·llm·aigc
kaizq14 小时前
AI-MCP-SQLite-SSE本地服务及CherryStudio便捷应用
python·sqlite·llm·sse·mcp·cherry studio·fastmcp
亚里随笔18 小时前
GenEnv:让AI智能体像人一样在_游戏_中成长
人工智能·游戏·llm·rl·agentic
彼岸花开了吗20 小时前
构建AI智能体:八十、SVD知识整理与降维:从数据混沌到语义秩序的智能转换
人工智能·python·llm
栀秋66621 小时前
智能驱动的 Git 提交:基于 Ollama 大模型的规范化提交信息生成方案
react.js·llm·ollama
AI架构师易筋1 天前
AIOps 告警归因中的提示工程:从能用到可上生产(4 阶梯)
开发语言·人工智能·llm·aiops·rag
小小宫城狮1 天前
BPE 算法原理与训练实现
算法·llm