大语言模型-文本向量模型评估基准 MTEB

MTEB（Massive Text Embedding Benchmark）

涵盖112种语言的58个数据集，包含如下8种任务。

任务目标： 在双语语料库中识别语义等价的句子对。

任务描述： 输入是来自两种不同语言的两个句子集，对于来自第一个句子集的句子，找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。

评估指标： F1是主要的评估指标、Accuracy、precision、recall

任务目标： 模型能够对文本的类别进行准确标注。

任务描述： 基于提供的模型生成文本向量，并使用这些向量作为特征来训练分类器，对文本进行分类。
评估指标： 准确率（多分类）、精确率（二分类）

任务目标： 模型能够将文本分组至N个预先没有定义的类别中。
任务描述： 基于提供的模型生成文本向量，并利用聚类模型对这些向量进行分组。

评估指标： V-Measure

任务目标： 模型能够判断一对文本之间是否存在特定关系，如语义等价或对立。
任务描述： 给定一对文本，判断其是否具有相同含义。

评估指标： AP

任务目标： 给定一个查询语句和一组候选文本，目标是根据这组候选文本与查询语句的相关性对候选文本进行排序。
任务描述： 输入是一个查询语句以及一组候选文本的列表。模型编码文本后比较与查询语句的相似性。

评估指标： MAP

任务目标： 从大规模文档库中检索出查询语句匹配度最高的文档。
任务描述： 文本向量化后对所有查询语句和文档库中文档计算余弦相似度。得到k个相似度最高的候选文档。

评估指标： NDCG@k

任务目标： 模型能够估给定句子对的语义相似度。
任务描述： 基于提供的模型生成文本向量，并使用诸如余弦相似度之类的度量来计算它们之间的相似性。

评估指标： Spearman秩相关性系数

任务目标： 模型需要给机器生成的摘要打分。
任务描述： 包括一个手写摘要和机器生成摘要数据集。模型编码所有摘要，然后对于每一个机器生成摘要向量，计算其与所有手写摘要向量的距离。

评估指标： Pearson、Spearman相关性