CVPR讲座总结(二)-探索图像生成基础模型的最新进展探索多模态代理的最新进展：从视频理解到可操作代理

在CVPR24上的教程中，微软高级研究员Linjie Li为我们带来了多模态代理的深入探索。这些代理通过整合多模态专家和大语言模型（LLM）来增强感知、理解和生成能力。本文总结了Linjie Li的讲座内容，重点介绍了多模态记忆、可操作代理、反馈代理的设计及其应用。

为了全面理解视频中的视觉信号，需要密集采样帧，这会导致长序列输入和高推理成本。因此，我们需要多模态记忆来处理这些复杂的任务，特别是在需要长时间上下文理解的情况下。例如，音频描述任务需要记忆之前提到的内容，并且需要在不与视频中的语音信号重叠的情况下进行描述。

在MM Narrator中，我们设计了一种用于长视频叙述的代理，该代理具有短期和长期记忆。短期记忆包含最近的预测，长期记忆包含所有先前的帧和预测。通过计算当前帧与之前帧的相似性，可以检索相关的预测，并作为多模态上下文示例来生成当前的描述。

在GUI导航任务中，代理需要与交互环境进行动态交互，这比静态输入操作更为复杂。例如，在MM Navigator中，我们利用分割模型标记屏幕上的重要对象，并将这些标记与GPT-4的输出连接起来，使代理能够精确地点击屏幕上的指定位置。

MM Navigator的一个演示展示了如何在手机上执行一系列操作，从打开Amazon应用到购买一个指定价格范围内的牛奶起泡器。代理能够正确识别并执行多个步骤，展示了在复杂环境中的操作能力。

在探索未知环境时，代理需要不断自我优化和调整。这种迭代自我优化的过程可以帮助代理在视觉设计和创建任务中生成更高质量的结果。例如，Idea2Img代理通过接收环境反馈，逐步改进生成的图像，最终生成符合用户需求的高质量视觉设计。

通过对比单轮人类提示与Idea2Img的迭代优化，我们可以看到，Idea2Img能够生成更高视觉质量和语义对齐的图像。例如，针对一个会议标志的生成任务，Idea2Img在多轮优化后能够生成更加准确和详细的标志设计。

多模态代理在过去一年中取得了显著进展，从视频理解到GUI导航，再到视觉设计和创建，这些代理展示了其在复杂任务中的潜力。尽管目前的单一大语言模型或大多模态模型仍然无法完全解决这些任务，多模态代理通过引入记忆、反馈和动态交互，为解决这些复杂任务提供了新的思路。

未来，多模态代理的研究将继续推动大模型的进步，同时在系统优化、隐私保护和实际应用中发挥重要作用。随着这些代理技术的不断发展，我们可以期待它们在更多实际应用中的广泛应用和进一步提升。

讲座视频：https://www.bilibili.com/video/BV1gM4m1U7i6/