CV每日论文--2024.7.24

1 、AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description

中文标题:T2V-CompBench:组合文本到视频生成的综合基准AutoAD-Zero:零样本音频描述的免训练框架

简介:我们的目标是以无需训练的方式为电影和电视剧生成音频描述(AD)。我们利用现成的视觉-语言模型(VLM)和大型语言模型(LLM)的能力,并为此任务开发了视觉和文本提示策略。

我们的主要贡献包括:

我们证明了VLM可以成功地命名和指称角色,只需直接通过视觉提示提供角色信息,而无需进行任何微调。

我们开发了一个两阶段的过程来生成AD。第一阶段要求VLM全面描述视频,第二阶段利用LLM将密集的文本信息总结成一个简洁的AD句子。

我们制定了一个新的电视音频描述数据集。

我们提出的方法名为AutoAD-Zero,在电影和电视剧的AD生成中表现出色,甚至可与一些基于真实AD进行微调的模型相竞争,实现了最先进的CRITIC分数。

2、BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes

中文标题:BoostMVSNeRFs:将基于 MVS 的 NeRFs 提升到大规模场景中的可泛化视图合成

简介:虽然神经辐射场(NeRF)展示了出色的质量,但其漫长的训练时间仍然是一个限制因素。虽然可减少训练时间的通用和基于多视角重建的NeRF可以缓解这一问题,但往往会在质量上产生权衡。

本文提出了一种名为BoostMVSNeRFs的新方法,以提高大规模场景中基于多视角重建的NeRF的渲染质量。首先,我们确定了基于多视角重建的NeRF方法的局限性,例如受限的视口覆盖范围和由于有限输入视图而产生的伪影。

为了解决这些限制,我们提出了一种新方法,在体积渲染期间选择和组合多个代价体。我们的方法不需要训练,可以以前馈方式适应任何基于多视角重建的NeRF方法以提高渲染质量。此外,我们的方法也可以进行端到端的训练,允许在特定场景中进行微调。

我们通过对大规模数据集进行实验来展示我们方法的有效性,在大规模场景和无限制的户外场景中显示出显著的渲染质量改进。我们在https://su-terry.github.io/BoostMVSNeRFs/发布了BoostMVSNeRFs的源代码。

3、Reconstructing Training Data From Real World Models Trained with Transfer Learning

中文标题:从经过迁移学习训练的真实世界模型重建训练数据

简介:本文提出了一种新方法,使得在高分辨率图像上训练的模型能够在现实场景中进行数据重建。与之前的方法相比,我们的方法具有以下优点:

适应性强:我们将先前的重建方案(arXiv:2206.07758)迁移到现实场景中,特别针对使用大型预训练模型(如DINO-ViT和CLIP)进行迁移学习训练的模型。

适用性广泛:我们的方法在嵌入空间而不是图像空间中进行数据重建,展示了它在视觉数据之外的适用性。

识别改进:我们引入了一种新的基于聚类的方法,从成千上万个候选项中识别出好的重建结果,显著改进了以往依赖于训练集知识的方法。

隐私风险揭示:我们的研究结果揭示了使用迁移学习训练的模型可能存在数据泄露的潜在隐私风险。

与此前方法相比,我们的方法在现实场景中展现出了更强的适应性和广泛性,并提出了更优秀的结果识别机制,为该领域的进一步发展提供了有价值的研究洞见。

相关推荐
charley.layabox2 小时前
8月1日ChinaJoy酒会 | 游戏出海高端私享局 | 平台 × 发行 × 投资 × 研发精英畅饮畅聊
人工智能·游戏
DFRobot智位机器人3 小时前
AIOT开发选型:行空板 K10 与 M10 适用场景与选型深度解析
人工智能
想成为风筝5 小时前
从零开始学习深度学习—水果分类之PyQt5App
人工智能·深度学习·计算机视觉·pyqt
F_D_Z5 小时前
MMaDA:多模态大型扩散语言模型
人工智能·语言模型·自然语言处理
大知闲闲哟6 小时前
深度学习G2周:人脸图像生成(DCGAN)
人工智能·深度学习
飞哥数智坊6 小时前
Coze实战第15讲:钱都去哪儿了?Coze+飞书搭建自动记账系统
人工智能·coze
wenzhangli76 小时前
低代码引擎核心技术:OneCode常用动作事件速查手册及注解驱动开发详解
人工智能·低代码·云原生
今天背单词了吗9806 小时前
算法学习笔记:19.牛顿迭代法——从原理到实战,涵盖 LeetCode 与考研 408 例题
笔记·学习·算法·牛顿迭代法
千宇宙航7 小时前
闲庭信步使用图像验证平台加速FPGA的开发:第十课——图像gamma矫正的FPGA实现
图像处理·计算机视觉·缓存·fpga开发
jdlxx_dongfangxing7 小时前
进制转换算法详解及应用
算法