CV每日论文--2024.5.7

1、Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

中文标题：Vibe-Eval: 一个测量多模态语言模型进度的严格评估套件

简介：本文介绍了一种新的开放评估基准 Vibe-Eval,用于评估多模态对话模型的性能。 Vibe-Eval 包括 269 个视觉理解相关的提示,其中 100 个提示难度较大,每个提示都有专家撰写的参考回答。 Vibe-Eval 的目标是测试现有前沿多模态对话模型在日常任务中的性能,并对其能力进行严格的评估。有趣的是,Vibe-Eval 中超过50%的问题目前前沿模型都无法正确回答。

文章还讨论了如何设计、评估和排序具有挑战性的提示,以及在自动评估和人工评估之间的权衡。通过使用 Reka Core 进行自动评估,结果与人类评估大体一致。

作者提供了免费的 API 接口供轻量级评估使用,并计划对在 Vibe-Eval 上表现良好的公开模型进行正式的人工评估。最后,文章还发布了相关的评估代码和数据供大家使用。

2、DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

中文标题：DreamScene4D: 从单目视频生成动态多目标场景

简介：现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。在这一基础上,我们提出了DreamScene4D,这是第一个能从单目野外视频中生成动态三维场景的方法。这个场景包含多个具有大幅运动的物体,即使在遮挡和新视角下也能正确呈现。

我们的关键创新是设计了一种"分解-重组"的方案。首先,我们使用开放词汇掩模跟踪器和自适应图像扩散模型分割、跟踪和补全视频中的物体和背景,从而分解整个场景。然后,我们将每个物体的轨迹映射到一组3D高斯函数,在时空上对其进行变形和移动。我们还将观察到的运动分解为多个组件,以更好地处理快速运动。通过重渲染背景来匹配视频帧,我们可以推断相机的运动。

对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。最后,我们重组背景和物体,并利用单目深度预测引导优化相对物体比例。

我们在DAVIS、Kubric和自拍视频等具有挑战性的数据集上展示了广泛的结果,并指出了一些局限性,并提出了未来的发展方向。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。

3、Designed Dithering Sign Activation for Binary Neural Networks

中文标题：二进制神经网络的设计抖动信号激活

简介：二进制神经网络通过对网络权重或激活进行二值化,成为计算机视觉任务的一种经济高效的解决方案。然而,常见的二值激活函数(如符号激活函数)会通过单一阈值突然将值二值化,从而丢失特征输出中的细节。

本文提出了一种新的激活函数,它根据抖动原理应用多个阈值,对每个像素的符号激活函数进行移位,以空间周期性阈值核为基础。与文献中的方法不同,这种移位是针对一组相邻像素共同定义的,利用了空间相关性。

实验结果表明,所设计的抖动符号激活函数是二进制神经网络的一种有效替代激活函数,而不会增加计算成本。此外,该方法在保留特征细节的同时,也平衡了二进制操作的效率。

总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。