大模型评估

大模型预训练评估指标关于 Language Modeling 的量化指标，较为普遍的有 [PPL]，[BPC]等,可以简单理解为在生成结果和目标文本之间的 Cross Entropy Loss 上做了一些处理，这种方式可以用来评估模型对「语言模板」的拟合程度即给定一段话，预测后面可能出现哪些合法的、通顺的字词。

Llama-2 vs. Llama-3：利用微型基准测试（井字游戏）评估大模型编者按：如何更好地评估和比较不同版本的大语言模型？传统的学术基准测试固然重要，但往往难以全面反映模型在实际应用场景中的表现。在此背景下，本文作者别出心裁，通过让 Llama-2 和 Llama-3 模型进行井字游戏对决，为我们提供了一个新颖而有趣的模型评估视角。

我是有底线的