- 算法介绍
CLIP(Contrastive Language-Image Pre-Training)模型是一种多模态预训练神经网络,由OpenAI在2021年发布,是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务,包括OCR,地理定位,动作识别,并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。该模型的核心思想是使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。该模型具有多模态学习的能力,能够同时理解图像和文本两种不同模态的信息,并在它们之间建立联系。CLIP模型在多个领域都展现出了强大的应用潜力,包括图像分类、图像检索、文本生成、多模态搜索等,尤其适用于零样本学习任务,即模型不需要看到新的图像或文本的训练示例就能进行预测。 - 算法原理
2.1 VIT
2.2 Transformer
2.3 CLIP
CLIP模型训练分为三个阶段:
(1)Contrastive pre-training:预训练阶段,使用图片-文本对进行对比学习训练;
(2)Create dataset classifier from label text:提取预测类别文本特征;
(3)Use for zero-shot predictiion:进行 Zero-Shoot 推理预测。
CLIP的工作原理可以概括为"对比学习"。对比学习是一种学习相似性度量的方法,其核心思想是通过将同一组数据中的不同样本对进行比较,来学习它们之间的相似度或差异度。在CLIP模型中,对比学习被用来训练模型学习视觉和语言的相互关系。
具体来说,在预训练阶段,CLIP通过对比图像和文本的向量表示,学习它们之间的匹配关系。模型会接收一批图像-文本对作为输入,并尝试将匹配的图像和文本向量在共同的语义空间中拉近,而将不匹配的向量推远,也就是计算类别标签与预测的余弦相似度,相似度最高的标签即是预测的分类结果,这种学习方式使得CLIP能够捕捉到图像和文本之间的深层语义联系,实现跨模态理解。不同于以的分类网络的类别数量是固定的,CLIP给了我们很高的自由度去设置"多项选择题"提供给网络的分类标签不仅数量不固定,内容也是自由的,摆脱了事先定好的分类标签。
此外,在训练过程中,CLIP采用了对比损失函数,包括对比损失(通过最大化正确图像-文本对的相似性和最小化错误图像-文本对的相似性来训练模型)和分类损失(用于训练模型对图像和文本进行多任务分类),这是对称的,意味着对于每个图像-文本对,模型会计算两个方向的损失:图像到文本和文本到图像。这种对称性确保了模型在两个方向上都能有效地学习匹配关系。
-
算法应用
CLIP多模态训练模型的应用范围广泛,包括但不限于零样本学习、图像分类、文本-图像检索、文本到图像生成以及开放领域的检测分割等任务。这些应用展示了CLIP模型在处理多模态数据时的强大能力和广泛适用性。在医学领域,上海交通大学与上海人工智能实验室联合团队提出了PMC-CLIP模型,从科学文献中构建高质量医疗多模态数据集---PMC-OA数据集,其在规模和丰富程度上超过了以往的工作,涵盖了更丰富的疾病、器官和影像模态,基于该数据集,PMC-CLIP模型在图文互搜、图像分类、视觉问答等下游任务上均能够显著提升性能,具体的数据处理与预训练模式见图4。近年来,CLIP在医学成像领域也受到越来越多的关注,因为它能够编码视觉模型中的广泛知识。在医学领域,现有的CLIP研究可分为两类,一是改进的CLIP预训练(refined CLIP pre-training),二是基于CLIP的应用(CLIP-driven application)。前者试图将CLIP预训练范式,应用到医学图像和相应的临床报告中,以满足医学成像领域的特定要求;后者致力于将预训练的CLIP模型作为所提出方法的关键组成部分,实现各种临床任务(如胸部疾病诊断、多器官分割)。
在中医药信息化发展方面,CLIP也有一些潜在的应用场景值得我们探索,例如CLIP模型可以用于识别中药材的图像,通过学习大量的中药材图像和对应的文本描述,模型能够识别和分类不同的中药材;帮助分析和理解中医药文献中的图像和文本内容,提取关键信息;结合中医的四诊(望、闻、问、切)信息,CLIP模型可以辅助构建智能诊断系统,通过分析患者的舌象、面色等图像信息,结合症状描述,辅助医生进行诊断和治疗建议;帮助构建中医药知识图谱,促进中医药信息的组织和检索,等等。在实际应用中,CLIP模型需要针对中医药领域的特定需求进行适当的调整和优化,例如,通过在中医药相关的数据集上进行微调,以提高模型在该领域的性能和准确性。此外,结合中医药专家知识,可以进一步提升模型的解释能力和应用价值。值得注意的是,CLIP模型在中医药领域的应用还处于探索阶段,需要更多的研究和实践来验证其有效性和可行性。
-
总结
CLIP技术的出现,标志着多模态学习领域的一次重要突破。它不仅打破了语言与视觉之间的界限,还为人工智能的未来发展开辟了新的道路。然而,CLIP模型也面临着一些挑战,如细粒度分类表现不佳、对未见过的图片类型表现一般、模型训练需要大量的数据和计算资源等,这在一定程度上限制了其普及和应用。随着技术的不断进步和应用的不断拓展,我们相信CLIP将在更多领域发挥重要作用,帮助我们更好地把握人工智能的发展脉搏,推动技术的创新和应用。
DetCLIPv3的特点有三个核心设计:
1.多功能的模型架构:作者导出一个健壮的开集检测框架,并通过集成字幕 Head 进一步赋予其生成能力。
2.高信息密度数据:作者开发了一个自动标注 Pipeline ,利用视觉大型语言模型来细化大规模图像-文本对中的字幕,为训练提供丰富、多粒度的目标标签以增强训练。
3.高效的训练策略:作者采用了一个预训练阶段,使用低分辨率输入,使目标字幕生成器能够从广泛的图像-文本配对数据中高效学习广泛的视觉概念。
开放词汇目标检测(OVD)领域的近期进展已经实现了识别和定位多种不同目标的能力。然而,这些模型在推理过程中依赖于预定义的目标类别列表,这限制了它们在实际场景中的应用。
与目前仅基于类别名称识别物体的开放词汇目标检测(OVD)方法相比,人类认知展现出了更多的灵活性。如图2所示,人类能够以层次化的方式,从不同的粒度理解物体。这种多级识别能力展示了人类丰富的视觉理解能力,这是现代OVD系统尚未达到的。
DetCLIPv3具有三个核心设计特点:
多功能的模型架构: DetCLIPv3基于一个健壮的开词汇(OV)检测器,并且进一步通过一个物体描述器增强了其生成能力。具体来说,物体描述器利用OV检测器提供的foreground proposals(前景 Proposal ),并通过语言建模训练目标来训练生成每个检测到的物体的分层标签。这种设计不仅允许精确的定位,还能提供视觉概念的详细描述,从而为视觉内容提供更丰富的解释。
高信息密度数据: 发展强大的生成能力需要丰富的训练数据,这些数据需充实了详细的物体 Level 描述。这样全面的数据库稀缺(例如,Visual Genome [25])成为了训练有效物体描述生成器的重大障碍。另一方面,尽管大规模的图像-文本配对数据很丰富,但它们缺乏对每个物体的细粒度标注。为了利用这些数据,作者设计了一个自动标注管线,利用最先进的视觉大型语言模型[7, 35],该模型能够提供包含丰富层次化物体标签的精细图像描述。通过这个管线,作者得到了一个大规模的数据集(称为GranuCap50M),以增强DetCLIPv3在检测和生成方面的能力。
高效的多阶段训练: 与高分辨率输入相关的目标检测训练成本高昂,这对从大量的图像-文本对中学习构成了重大障碍。为了解决这个问题,作者提出了一种高效的多阶段对齐训练策略。这种方法首先利用大规模、低分辨率的图像-文本数据集的知识,然后在高质量、细粒度、高分辨率的 数据上进行微调。这种方法确保了全面的视觉概念学习,同时保持了可管理的训练需求。
通过有效的设计,DetCLIPv3在检测和目标 Level 的生成能力上表现出色,例如,采用Swin-T Backbone 网络,在LVIS minival基准测试中取得了显著的47.0零样本固定AP[9],明显优于先前的模型如GLIPv2[65],DetCLIPv2[60]和GroundingDINO[36]。此外,它在密集字幕任务上达到18.4 mAP,比先前的SOTA方法GRiT[56]高出2.9 mAP。广泛的实验进一步证明了DetCLIPv3在领域泛化及下游迁移能力方面的优越性。