腾讯：Agent视觉隐喻迁移

📖标题：Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

🌐来源：arXiv, 2602.01335v1

🛎️文章简介

🔸研究问题：如何让AI模型从参考图像中自主提取抽象隐喻逻辑，并将其可靠地迁移到新目标对象上，而非仅做像素级风格或外观替换？

🔸主要贡献：论文提出了视觉隐喻迁移（VMT）新任务，并构建首个基于概念整合理论、具备闭环反思能力的多智能体框架，实现从"像素"到"认知逻辑"的跨越。

🔸提出Schema Grammar（SG）结构化表示，将隐喻解耦为实体（S/C/AS）、关系核心（G）、冲突点（V）和涌现意义（I）四部分，形式化建模跨域逻辑不变性。

🔸设计四阶段协同智能体：感知智能体用VLM+思维链提取参考图像的SG；迁移智能体在保持G不变前提下，检索适配新主体的目标载体C_tgt与违和点V_tgt；生成智能体将SG转译为高保真文本提示；诊断智能体分层回溯（提示层→组件层→抽象层）定位并修正逻辑偏差。

🔸引入层级反馈机制，诊断智能体模拟专业批评者，从主体显著性、违和实现、关系连贯性、意义对齐四维度定性评估，驱动迭代优化，确保输出兼具逻辑深度与视觉合理性。

🔸在126个真实隐喻图像构成的多样化数据集上，该方法在隐喻一致性（MC）、类比恰当性（AA）、概念融合度（CI）三项核心指标上全面超越SOTA基线，AA提升达16.8%。

🔸人类评估显示，其在隐喻创意性（MI=4.57）和违和恰当性（VA=4.45）上显著领先，且视觉整合（VI=4.64）与整体质量（VQ=4.77）最高，证明逻辑推理未牺牲美学表现。

🔸消融实验证实：移除概念整合理论（CBT）导致载体匹配失败；取消诊断模块引发语义幻觉；跳过前两阶段则退化为表面对象替换，各模块缺一不可。

论文将认知语言学中的概念整合理论工程化，实现可计算的隐喻解构。