1、7B的模型,参数量就占到了16G,而且你要检索,要把所有的候选项candidate全部变成向量嵌入,然后计算相似度,3090的24G显存很容易爆,而且数据量一旦大了一点,达到几万,基本就很难跑通了。如果输入还有图像的话,显存更加容易溢出,可以在加载模型的时候,限制图片输入的像素,例如max_pixel参数,加载模型的时候也可以使用int4量化。
2、例如原来是在64G的显存上跑,有些时候,即使你把batch_size改成1,num_workers改成0,也依然在24G的显存上跑不了。
3、一般原来的论文用到H200,A100,基本上完整全部复现论文也需要这个配置,24G可能只能复现部分论文。