技术栈
visionllm
Nicolas893
6 天前
语言模型
·
大模型
·
多模态
·
视觉理解
·
cogvlm
·
visionllm
·
视觉语言预训练模型
【大模型理论篇】CogVLM:多模态预训练语言模型
前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。