大语言模型-文本检索任务基准 BEIR

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)

文本检索任务的基准,使用18 个数据集为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法

九个不同领域的检索任务,如下:

  • 1、事实核查(Fact checking)
  • 2、引文预测(Citation prediction)
  • 3、重复问题检索(Duplicate question retrieval)
  • 4、论据检索(Argument retrieval)
  • 5、新闻检索(News retrieval)
  • 6、问题回答(Question Answering)
  • 7、推文检索(Tweet retrieval)
  • 8、生物医学检索(Bio-Medical IR)
  • 9、实体检索(Entity retrieval)

BEIR来评估来自五大架构的十种不同的检索方法,其中的五大架构如下:

  • 1、词法(lexical)
  • 2、稀疏(sparse)
  • 3、密集(dense)
  • 4、后期交互(late interaction)
  • 5、重排序(re-ranking)

BEIR来评估的十种不同的检索方法,如下:

  1. BM25 (Anserini) https://github.com/castorini/anserini
  2. DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
  3. SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
  4. DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
  5. DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
  6. DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
  7. ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
  8. TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
  9. ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
  10. MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2
(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现:
(1)BEIR基准的十种不同的检索方法的性能开销

结论:

1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。

2、一个模型的领域内性能与它的泛化能力并不相关:用相同的训练数据进行微调的模型可能会有不同的泛化能力。

3、发现性能和计算成本之间的权衡:计算成本高的模型,如重排模型和后期交互模型表现最好。更有效的方法,如基于密集或稀疏嵌入的方法,可以大大低于传统的词汇模型,如BM25的表现。

4、未来的工作需要更好的无偏见的数据集,允许对所有类型的检索系统进行公平的比较。

参考

BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models

相关推荐
标贝科技10 分钟前
标贝科技:大模型领域数据标注的重要性与标注类型分享
数据库·人工智能
aminghhhh18 分钟前
多模态融合【十九】——MRFS: Mutually Reinforcing Image Fusion and Segmentation
人工智能·深度学习·学习·计算机视觉·多模态
格林威21 分钟前
Baumer工业相机堡盟工业相机的工业视觉是否可以在室外可以做视觉检测项目
c++·人工智能·数码相机·计算机视觉·视觉检测
陈苏同学1 小时前
MPC控制器从入门到进阶(小车动态避障变道仿真 - Python)
人工智能·python·机器学习·数学建模·机器人·自动驾驶
kebijuelun1 小时前
KV cache 缓存与量化:加速大型语言模型推理的关键技术
缓存·语言模型·kotlin
努力毕业的小土博^_^1 小时前
【深度学习|学习笔记】 Generalized additive model广义可加模型(GAM)详解,附代码
人工智能·笔记·深度学习·神经网络·学习
小小鱼儿小小林2 小时前
用AI制作黑神话悟空质感教程,3D西游记裸眼效果,西游人物跳出书本
人工智能·3d·ai画图
浪淘沙jkp2 小时前
AI大模型学习二十、利用Dify+deepseekR1 使用知识库搭建初中英语学习智能客服机器人
人工智能·llm·embedding·agent·知识库·dify·deepseek
AndrewHZ4 小时前
【图像处理基石】什么是油画感?
图像处理·人工智能·算法·图像压缩·视频处理·超分辨率·去噪算法
Robot2515 小时前
「华为」人形机器人赛道投资首秀!
大数据·人工智能·科技·microsoft·华为·机器人