CV每日论文--2024.5.7

1、Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

中文标题:Vibe-Eval: 一个测量多模态语言模型进度的严格评估套件

简介:本文介绍了一种新的开放评估基准 Vibe-Eval,用于评估多模态对话模型的性能。 Vibe-Eval 包括 269 个视觉理解相关的提示,其中 100 个提示难度较大,每个提示都有专家撰写的参考回答。 Vibe-Eval 的目标是测试现有前沿多模态对话模型在日常任务中的性能,并对其能力进行严格的评估。有趣的是,Vibe-Eval 中超过50%的问题目前前沿模型都无法正确回答。

文章还讨论了如何设计、评估和排序具有挑战性的提示,以及在自动评估和人工评估之间的权衡。通过使用 Reka Core 进行自动评估,结果与人类评估大体一致。

作者提供了免费的 API 接口供轻量级评估使用,并计划对在 Vibe-Eval 上表现良好的公开模型进行正式的人工评估。最后,文章还发布了相关的评估代码和数据供大家使用。

2、DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

中文标题:DreamScene4D: 从单目视频生成动态多目标场景

简介:现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。在这一基础上,我们提出了DreamScene4D,这是第一个能从单目野外视频中生成动态三维场景的方法。这个场景包含多个具有大幅运动的物体,即使在遮挡和新视角下也能正确呈现。

我们的关键创新是设计了一种"分解-重组"的方案。首先,我们使用开放词汇掩模跟踪器和自适应图像扩散模型分割、跟踪和补全视频中的物体和背景,从而分解整个场景。然后,我们将每个物体的轨迹映射到一组3D高斯函数,在时空上对其进行变形和移动。我们还将观察到的运动分解为多个组件,以更好地处理快速运动。通过重渲染背景来匹配视频帧,我们可以推断相机的运动。

对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。最后,我们重组背景和物体,并利用单目深度预测引导优化相对物体比例。

我们在DAVIS、Kubric和自拍视频等具有挑战性的数据集上展示了广泛的结果,并指出了一些局限性,并提出了未来的发展方向。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。

3、Designed Dithering Sign Activation for Binary Neural Networks

中文标题:二进制神经网络的设计抖动信号激活

简介:二进制神经网络通过对网络权重或激活进行二值化,成为计算机视觉任务的一种经济高效的解决方案。然而,常见的二值激活函数(如符号激活函数)会通过单一阈值突然将值二值化,从而丢失特征输出中的细节。

本文提出了一种新的激活函数,它根据抖动原理应用多个阈值,对每个像素的符号激活函数进行移位,以空间周期性阈值核为基础。与文献中的方法不同,这种移位是针对一组相邻像素共同定义的,利用了空间相关性。

实验结果表明,所设计的抖动符号激活函数是二进制神经网络的一种有效替代激活函数,而不会增加计算成本。此外,该方法在保留特征细节的同时,也平衡了二进制操作的效率。

总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。

相关推荐
随缘而动,随遇而安32 分钟前
第八十八篇 大数据中的递归算法:从俄罗斯套娃到分布式计算的奇妙之旅
大数据·数据结构·算法
美狐美颜sdk33 分钟前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程1 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
有Li1 小时前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
郭庆汝1 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python
IT古董1 小时前
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器
神经网络·算法·机器学习
小雷FansUnion3 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周3 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint
水木兰亭4 小时前
数据结构之——树及树的存储
数据结构·c++·学习·算法
叶子爱分享4 小时前
计算机视觉与图像处理的关系
图像处理·人工智能·计算机视觉