评价方法

三千越甲可吞吴、

大语言模型开发各个阶段的评估方法（未完）场景：我们要设计一个专有领域的大语言模型，设计思路是先选择开源的基座模型，使用领域相关的数据集对基座模型进行微调得到通用的大语言模型，再使用特定任务的数据集进一步对基座模型进行微调得到专用的大语言模型。

【深度学习】序列生成模型（四）：评价方法构建序列生成模型后，为了评价其性能，通常采用一些度量方法。本文将介绍一些常见的评价方法：困惑度（Perplexity）是一种用来衡量序列生成模型性能的指标。在给定一个测试文本集合的情况下，一个好的序列生成模型应该使得测试集合中句子的联合概率尽可能高。困惑度是信息论中的一个概念，用来度量一个分布的不确定性。

我是有底线的