大模型,多模态大模型面试问题记录【时序,Qformer,卷积,感受野,ControlNet,IP-adapter】参考BLIP2中Q-former详解 总结关键点是:Q-former结构: Q-Former由两个transfomer子模块组成,左边为**(learnable) query encoder**,右边为text encoder & decoder。记视觉模型的image encoder的输出为I。左边网络的(learnable) query为Q,右边网络的输入text为T。注意Q是一个向量集,非单个向量。它可以视为Q-Former的参数。