大语言模型-文本检索任务基准 BEIR

P-ShineBeam2024-07-21 11:23

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)

文本检索任务的基准，使用18 个数据集为检索系统的零样本评估提出了一个标准化基准， BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法。

`九个`不同领域的`检索任务`，如下:

1、事实核查（Fact checking）
2、引文预测（Citation prediction）
3、重复问题检索（Duplicate question retrieval）
4、论据检索（Argument retrieval）
5、新闻检索（News retrieval）
6、问题回答（Question Answering）
7、推文检索（Tweet retrieval）
8、生物医学检索（Bio-Medical IR）
9、实体检索（Entity retrieval）

BEIR来评估来自五大架构的十种不同的检索方法，其中的`五大架构`如下：

1、词法（lexical）
2、稀疏（sparse）
3、密集（dense）
4、后期交互（late interaction）
5、重排序（re-ranking）

BEIR来评估的`十种不同的检索方法`，如下：

(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现：

(1)BEIR基准的十种不同的检索方法的性能开销

结论：

1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。

2、一个模型的领域内性能与它的泛化能力并不相关：用相同的训练数据进行微调的模型可能会有不同的泛化能力。

3、发现性能和计算成本之间的权衡：计算成本高的模型，如重排模型和后期交互模型表现最好。更有效的方法，如基于密集或稀疏嵌入的方法，可以大大低于传统的词汇模型，如BM25的表现。

4、未来的工作需要更好的无偏见的数据集，允许对所有类型的检索系统进行公平的比较。

参考

BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models

上一篇：CSS基础学习之元素定位（6）

下一篇：java Selenium,定位伪元素.UI自动化

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03本地部署 OpenClaw + DeepSeek-R1 完全指南 04OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 05OpenClaw 接入 QQ Bot 完整实践指南 06Window 10部署openclaw报错node.exe : npm error code 128 07npm-error code 128问题解决方法 08OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 09OpenClaw + 飞书（Feishu）环境搭建指南 10OpenClaw-VSCode：在 VS Code 里玩转 OpenClaw，远程管理+SSH 双剑合璧