腾讯:Agent视觉隐喻迁移

📖标题:Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

🌐来源:arXiv, 2602.01335v1

🛎️文章简介

🔸研究问题:如何让AI模型从参考图像中自主提取抽象隐喻逻辑,并将其可靠地迁移到新目标对象上,而非仅做像素级风格或外观替换?

🔸主要贡献:论文提出了视觉隐喻迁移(VMT)新任务,并构建首个基于概念整合理论、具备闭环反思能力的多智能体框架,实现从"像素"到"认知逻辑"的跨越。

📝重点思路

🔸提出Schema Grammar(SG)结构化表示,将隐喻解耦为实体(S/C/AS)、关系核心(G)、冲突点(V)和涌现意义(I)四部分,形式化建模跨域逻辑不变性。

🔸设计四阶段协同智能体:感知智能体用VLM+思维链提取参考图像的SG;迁移智能体在保持G不变前提下,检索适配新主体的目标载体C_tgt与违和点V_tgt;生成智能体将SG转译为高保真文本提示;诊断智能体分层回溯(提示层→组件层→抽象层)定位并修正逻辑偏差。

🔸引入层级反馈机制,诊断智能体模拟专业批评者,从主体显著性、违和实现、关系连贯性、意义对齐四维度定性评估,驱动迭代优化,确保输出兼具逻辑深度与视觉合理性。

🔎分析总结

🔸在126个真实隐喻图像构成的多样化数据集上,该方法在隐喻一致性(MC)、类比恰当性(AA)、概念融合度(CI)三项核心指标上全面超越SOTA基线,AA提升达16.8%。

🔸人类评估显示,其在隐喻创意性(MI=4.57)和违和恰当性(VA=4.45)上显著领先,且视觉整合(VI=4.64)与整体质量(VQ=4.77)最高,证明逻辑推理未牺牲美学表现。

🔸消融实验证实:移除概念整合理论(CBT)导致载体匹配失败;取消诊断模块引发语义幻觉;跳过前两阶段则退化为表面对象替换,各模块缺一不可。

💡个人观点

论文将认知语言学中的概念整合理论工程化,实现可计算的隐喻解构。

🧩附录

相关推荐
薛定猫AI1 小时前
【深度解析】终端里的免费 AI 编程助手 Freebuff:多代理架构、模型路由与安全使用实战
人工智能·安全·架构
tedcloud1234 小时前
UI-TARS-desktop部署教程:构建AI桌面自动化系统
服务器·前端·人工智能·ui·自动化·github
曦月逸霜7 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学7 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场7 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
AC赳赳老秦7 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体7 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯8 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析8 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
AI医影跨模态组学8 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学