LLM学习笔记8——多模态CLIP、ViLT、ALBEF、VLMo、BLIP参考视频 参考视频2017年提出的Transformer架构,凭借其强大的自注意力机制和并行计算能力,在自然语言处理领域引发革命,催生了BERT、GPT等大语言模型。然而,其真正迈向多模态的关键一步,是2020年ViT的诞生。ViT创新性地将图像分割为小块并序列化,使标准的Transformer能够直接处理图像,首次证明了纯Transformer架构在大规模数据下可以超越传统的卷积神经网络,打破了视觉任务对CNN的长期依赖。这一突破实现了视觉与语言在模型架构上的统一,为跨模态建模提供了共同的技术底座。