技术栈

大模型评估

lihuayong
1 个月前
人工智能·大模型评估·预训练评估
大模型预训练评估指标关于 Language Modeling 的量化指标,较为普遍的有 [PPL],[BPC]等,可以简单理解为在生成结果和目标文本之间的 Cross Entropy Loss 上做了一些处理,这种方式可以用来评估模型对「语言模板」的拟合程度即给定一段话,预测后面可能出现哪些合法的、通顺的字词。
Baihai IDP
1 年前
人工智能·ai·llm·llama·白海科技·大模型评估
Llama-2 vs. Llama-3:利用微型基准测试(井字游戏)评估大模型编者按: 如何更好地评估和比较不同版本的大语言模型?传统的学术基准测试固然重要,但往往难以全面反映模型在实际应用场景中的表现。在此背景下,本文作者别出心裁,通过让 Llama-2 和 Llama-3 模型进行井字游戏对决,为我们提供了一个新颖而有趣的模型评估视角。
我是有底线的