(论文速读)面向视觉语言模型组合性理解可视分析方法论文题目:面向视觉语言模型组合性理解的可视分析方法期刊:计算机辅助设计与图形学学报摘要:视觉语言预训练模型在众多基准测试中展现出了强大的跨模态理解能力, 但其“组合性理解”能力仍有待探 究. 针对来自计算机视觉领域的研究往往侧重于量化指标和模型架构, 缺乏动态探索跨模态对齐能力的有效手段的 问题, 提出交互式分析方法, 从可视化视角出发, 阐释视觉语言模型专注于独立实体元素的具体模式. 首先通过优化 传统网格布局, 增强对大规模数据集上模型跨模态对齐能力的视觉感知; 然后解释多头注意力机制在执行跨模态语