【multi-model】DINOv2(包含iBOT)& 问答一、DINOv2 1、数据集: LVD-142M数据集,由公开数据集和网络数据集组成,数据集经过PCA哈希去重,NSFW过滤和人脸模糊,整合汇总之后生成1.2亿的数据集; 2、DINOv2的去重方式叫copy detection pipeline(SSCD) ①自去重:去除数据内部冗余 第一步:特征提取,提取图片的特征向量 第二步:计算余弦相似度,计算每张图片最相近的k=64张图片 第三步:只保留相似度大于0.6的近邻对 第四步:并查集算法将相似数据连接在一起,形成一个连通分量,每个连通分量只保留一张图片