大语言模型-文本向量模型评估基准 MTEB

MTEB(Massive Text Embedding Benchmark)

涵盖112种语言的58个数据集,包含如下8种任务

1、双语文本挖掘(Bitext Mining)

任务目标: 在双语语料库中识别语义等价的句子对。

任务描述: 输入是来自两种不同语言的两个句子集,对于来自第一个句子集的句子,找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。

评估指标: F1是主要的评估指标、Accuracy、precision、recall

2、文本分类(Classification)

任务目标: 模型能够对文本的类别进行准确标注。

任务描述: 基于提供的模型生成文本向量,并使用这些向量作为特征来训练分类器,对文本进行分类。
评估指标: 准确率(多分类)、精确率(二分类)

3、文本聚类(Clustering)

任务目标: 模型能够将文本分组至N个预先没有定义的类别中。
任务描述: 基于提供的模型生成文本向量,并利用聚类模型对这些向量进行分组。

评估指标: V-Measure

4、句子对分类(Pair Classification)

任务目标: 模型能够判断一对文本之间是否存在特定关系,如语义等价或对立。
任务描述: 给定一对文本,判断其是否具有相同含义。

评估指标: AP

5、重新排序(Reranking)

任务目标: 给定一个查询语句和一组候选文本,目标是根据这组候选文本与查询语句的相关性对候选文本进行排序。
任务描述: 输入是一个查询语句以及一组候选文本的列表。模型编码文本后比较与查询语句的相似性。

评估指标: MAP

6、检索(Retrieval)

任务目标: 从大规模文档库中检索出查询语句匹配度最高的文档。
任务描述: 文本向量化后对所有查询语句和文档库中文档计算余弦相似度。得到k个相似度最高的候选文档。

评估指标: NDCG@k

7、语义文本相似度(Semantic Textual Similarity, STS)

任务目标: 模型能够估给定句子对的语义相似度。
任务描述: 基于提供的模型生成文本向量,并使用诸如余弦相似度之类的度量来计算它们之间的相似性。

评估指标: Spearman秩相关性系数

8、摘要(Summarization)

任务目标: 模型需要给机器生成的摘要打分。
任务描述: 包括一个手写摘要和机器生成摘要数据集。模型编码所有摘要,然后对于每一个机器生成摘要向量,计算其与所有手写摘要向量的距离。

评估指标: Pearson、Spearman相关性

参考:

MTEB: Massive Text Embedding Benchmark
词向量模型评估

相关推荐
大学有意思几秒前
哪些学校支持考研跨门类调剂?以南林大2026年调剂政策为例
人工智能·机器人
Coding茶水间1 分钟前
基于深度学习的草莓健康度检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Django+web+训练代码+数据集)
人工智能·深度学习·yolo·机器学习·django
数琨创享TQMS质量数智化2 分钟前
Sigmar TQMS: 车间质量数智化管控平台技术选型指南
大数据·人工智能·qms质量管理系统·tqms·质量管理工具
北顾笙9802 分钟前
深度学习day06
人工智能·深度学习
linux开发之路3 分钟前
C++实现Whisper+Kimi端到端AI智能语音助手
c++·人工智能·llm·whisper·openai
ages_1233 分钟前
剪流AI智能手机对自媒体创作者的具体帮助有哪些:效率革命与全链路赋能
人工智能·智能手机·媒体
风象南5 分钟前
AI Coding 进化史
人工智能
AIminminHu6 分钟前
OpenGL渲染与几何内核那点事-项目实践理论补充(二-1-(2):当你的CAD学会“听话”:从鼠标点击到自然语言命令)
c++·人工智能
jinglong.zha7 分钟前
AScript + Cursor:让 AI 直接操控你的设备,一句话完成自动化编程(源代码)
运维·人工智能·自动化·ascript·openclaw
企业架构师老王10 分钟前
2026电力能源巡检进化论:如何基于企业级AI Agent构建非侵入式数据分析架构?
人工智能·ai·数据分析·能源