CV每日论文--2024.5.7

1、Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

中文标题:Vibe-Eval: 一个测量多模态语言模型进度的严格评估套件

简介:本文介绍了一种新的开放评估基准 Vibe-Eval,用于评估多模态对话模型的性能。 Vibe-Eval 包括 269 个视觉理解相关的提示,其中 100 个提示难度较大,每个提示都有专家撰写的参考回答。 Vibe-Eval 的目标是测试现有前沿多模态对话模型在日常任务中的性能,并对其能力进行严格的评估。有趣的是,Vibe-Eval 中超过50%的问题目前前沿模型都无法正确回答。

文章还讨论了如何设计、评估和排序具有挑战性的提示,以及在自动评估和人工评估之间的权衡。通过使用 Reka Core 进行自动评估,结果与人类评估大体一致。

作者提供了免费的 API 接口供轻量级评估使用,并计划对在 Vibe-Eval 上表现良好的公开模型进行正式的人工评估。最后,文章还发布了相关的评估代码和数据供大家使用。

2、DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

中文标题:DreamScene4D: 从单目视频生成动态多目标场景

简介:现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。在这一基础上,我们提出了DreamScene4D,这是第一个能从单目野外视频中生成动态三维场景的方法。这个场景包含多个具有大幅运动的物体,即使在遮挡和新视角下也能正确呈现。

我们的关键创新是设计了一种"分解-重组"的方案。首先,我们使用开放词汇掩模跟踪器和自适应图像扩散模型分割、跟踪和补全视频中的物体和背景,从而分解整个场景。然后,我们将每个物体的轨迹映射到一组3D高斯函数,在时空上对其进行变形和移动。我们还将观察到的运动分解为多个组件,以更好地处理快速运动。通过重渲染背景来匹配视频帧,我们可以推断相机的运动。

对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。最后,我们重组背景和物体,并利用单目深度预测引导优化相对物体比例。

我们在DAVIS、Kubric和自拍视频等具有挑战性的数据集上展示了广泛的结果,并指出了一些局限性,并提出了未来的发展方向。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。

3、Designed Dithering Sign Activation for Binary Neural Networks

中文标题:二进制神经网络的设计抖动信号激活

简介:二进制神经网络通过对网络权重或激活进行二值化,成为计算机视觉任务的一种经济高效的解决方案。然而,常见的二值激活函数(如符号激活函数)会通过单一阈值突然将值二值化,从而丢失特征输出中的细节。

本文提出了一种新的激活函数,它根据抖动原理应用多个阈值,对每个像素的符号激活函数进行移位,以空间周期性阈值核为基础。与文献中的方法不同,这种移位是针对一组相邻像素共同定义的,利用了空间相关性。

实验结果表明,所设计的抖动符号激活函数是二进制神经网络的一种有效替代激活函数,而不会增加计算成本。此外,该方法在保留特征细节的同时,也平衡了二进制操作的效率。

总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。

相关推荐
工业机器视觉设计和实现12 分钟前
cnn突破四(生成卷积核与固定核对比)
人工智能·深度学习·cnn
醒了就刷牙13 分钟前
58 深层循环神经网络_by《李沐:动手学深度学习v2》pytorch版
pytorch·rnn·深度学习
985小水博一枚呀16 分钟前
【对于Python爬虫的理解】数据挖掘、信息聚合、价格监控、新闻爬取等,附代码。
爬虫·python·深度学习·数据挖掘
Mephisto.java18 分钟前
【力扣 | SQL题 | 每日四题】力扣2082, 2084, 2072, 2112, 180
sql·算法·leetcode
robin_suli19 分钟前
滑动窗口->dd爱框框
算法
丶Darling.21 分钟前
LeetCode Hot100 | Day1 | 二叉树:二叉树的直径
数据结构·c++·学习·算法·leetcode·二叉树
labuladuo52031 分钟前
Codeforces Round 977 (Div. 2) C2 Adjust The Presentation (Hard Version)(思维,set)
数据结构·c++·算法
jiyisuifeng199142 分钟前
代码随想录训练营第54天|单调栈+双指针
数据结构·算法
想要打 Acm 的小周同学呀1 小时前
实现mnist手写数字识别
深度学习·tensorflow·实现mnist手写数字识别
꧁༺❀氯ྀൢ躅ྀൢ❀༻꧂1 小时前
实验4 循环结构
c语言·算法·基础题