CV每日论文--2024.5.7

1、Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

中文标题:Vibe-Eval: 一个测量多模态语言模型进度的严格评估套件

简介:本文介绍了一种新的开放评估基准 Vibe-Eval,用于评估多模态对话模型的性能。 Vibe-Eval 包括 269 个视觉理解相关的提示,其中 100 个提示难度较大,每个提示都有专家撰写的参考回答。 Vibe-Eval 的目标是测试现有前沿多模态对话模型在日常任务中的性能,并对其能力进行严格的评估。有趣的是,Vibe-Eval 中超过50%的问题目前前沿模型都无法正确回答。

文章还讨论了如何设计、评估和排序具有挑战性的提示,以及在自动评估和人工评估之间的权衡。通过使用 Reka Core 进行自动评估,结果与人类评估大体一致。

作者提供了免费的 API 接口供轻量级评估使用,并计划对在 Vibe-Eval 上表现良好的公开模型进行正式的人工评估。最后,文章还发布了相关的评估代码和数据供大家使用。

2、DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

中文标题:DreamScene4D: 从单目视频生成动态多目标场景

简介:现有的视觉语言模型(VLM)可以在2D视频中跟踪野外物体,而最新的生成模型已经提供了强大的视觉先验,可以合成高度不受限制的2D到3D对象。在这一基础上,我们提出了DreamScene4D,这是第一个能从单目野外视频中生成动态三维场景的方法。这个场景包含多个具有大幅运动的物体,即使在遮挡和新视角下也能正确呈现。

我们的关键创新是设计了一种"分解-重组"的方案。首先,我们使用开放词汇掩模跟踪器和自适应图像扩散模型分割、跟踪和补全视频中的物体和背景,从而分解整个场景。然后,我们将每个物体的轨迹映射到一组3D高斯函数,在时空上对其进行变形和移动。我们还将观察到的运动分解为多个组件,以更好地处理快速运动。通过重渲染背景来匹配视频帧,我们可以推断相机的运动。

对于物体运动的建模,我们先利用物体中心帧的渲染损失和多视角生成先验来建模物体的中心变形,然后通过将渲染输出与感知像素和光流进行比较,优化物体从中心到世界坐标系的变换。最后,我们重组背景和物体,并利用单目深度预测引导优化相对物体比例。

我们在DAVIS、Kubric和自拍视频等具有挑战性的数据集上展示了广泛的结果,并指出了一些局限性,并提出了未来的发展方向。除了4D场景生成,我们的方法还可以通过将推断的3D轨迹投影到2D上来实现精确的2D点运动跟踪,而无需进行专门的训练。

3、Designed Dithering Sign Activation for Binary Neural Networks

中文标题:二进制神经网络的设计抖动信号激活

简介:二进制神经网络通过对网络权重或激活进行二值化,成为计算机视觉任务的一种经济高效的解决方案。然而,常见的二值激活函数(如符号激活函数)会通过单一阈值突然将值二值化,从而丢失特征输出中的细节。

本文提出了一种新的激活函数,它根据抖动原理应用多个阈值,对每个像素的符号激活函数进行移位,以空间周期性阈值核为基础。与文献中的方法不同,这种移位是针对一组相邻像素共同定义的,利用了空间相关性。

实验结果表明,所设计的抖动符号激活函数是二进制神经网络的一种有效替代激活函数,而不会增加计算成本。此外,该方法在保留特征细节的同时,也平衡了二进制操作的效率。

总之,这种基于抖动的二值激活函数设计可以在保留特征细节的同时提升二进制神经网络的性能。

相关推荐
未来之窗软件服务5 分钟前
AI人工智能(二十一)pt模型转onnx sensvoice—东方仙盟练气期
人工智能·python·仙盟创梦ide·东方仙盟
2501_946490387 分钟前
Hirender MTC时间码技术实操——PH®CLUB激光投影声光电精准同步实现方案
大数据·运维·人工智能·hirender·hecoos
诚思报告YH9 分钟前
半导体石英制品市场洞察:2026-2032年复合增长率(CAGR)达9.2%
大数据·人工智能
Crazy________15 分钟前
力扣113个mysql简单题解析(包含plus题目)
mysql·算法·leetcode·职场和发展
yohalaser25 分钟前
智测破局提质 武汉曜华激光助力钙钛矿产线规模化量产
大数据·人工智能·太阳能·光伏发电·曜华激光·光伏组件生产线
苡~29 分钟前
【openclaw+claude】手机+OpenClaw+Claude实现远程AI编程系列大纲
java·前端·人工智能·智能手机·ai编程·claude api
生成论实验室30 分钟前
即事经智能:一种基于生成易算的通用智能新范式(书)
人工智能·神经网络·算法·架构·信息与通信
汽车仪器仪表相关领域33 分钟前
动态诊断充电中枢:DCA-8000型动态诊断充电系统 4S店/维修连锁/新能源服务站/车队维保全场景实战全解
人工智能·车载系统·汽车·负载均衡·压力测试·可用性测试
清风202238 分钟前
vllm 采样调研
人工智能·算法·机器学习
志栋智能1 小时前
自动化运维还有这样一种模式。
运维·人工智能·安全·机器人·自动化