如何训练Embedding Model

银晗2023-10-26 19:43

BGE的技术亮点：

数据集的构成：

主要思想是：encoder用小一点的mask rate得到sentence embedding，然后decoder用大一点的mask rate结合encoder得到的sentence embedding进行重构

此外，为了使得每个token使用的context信息不同，RetroMAE还使用了增强解码的方法

对比学习是一种训练模型的方法，通过比较正例和反例来学习数据的表示。

输入数据的格式：模型接受三元组格式的数据作为输入，包括一个查询（query），一个正例（positive），和一个反例（negative）。
in-batch negatives 策略：除了上述三元组中的反例外，他们还采用了"in-batch negatives"策略，意思是在同一个批次的数据中，使用其他数据作为额外的反例。
cross-device negatives sharing method：这是一种在不同的GPU之间共享反例的方法，目的是大大增加反例的数量。
训练硬件和参数：使用了48个A100(40G)的GPU进行训练。批次大小为32,768，因此每个查询在批次中有65,535个反例。使用了AdamW优化器，学习率为1e-5。对比损失的温度为0.01。
在训练中为检索任务的查询添加了instruction。对于英语，指令是Represent this sentence for searching relevant passages: ; 对于中文，指令是为这个句子生成表示以用于检索相关文章：. 在评测中，针对段落检索任务的任务需要在查询中添加指令，但不需要为段落文档添加指令。