CV每日论文--2024.7.24

1 、AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description

中文标题:T2V-CompBench:组合文本到视频生成的综合基准AutoAD-Zero:零样本音频描述的免训练框架

简介:我们的目标是以无需训练的方式为电影和电视剧生成音频描述(AD)。我们利用现成的视觉-语言模型(VLM)和大型语言模型(LLM)的能力,并为此任务开发了视觉和文本提示策略。

我们的主要贡献包括:

我们证明了VLM可以成功地命名和指称角色,只需直接通过视觉提示提供角色信息,而无需进行任何微调。

我们开发了一个两阶段的过程来生成AD。第一阶段要求VLM全面描述视频,第二阶段利用LLM将密集的文本信息总结成一个简洁的AD句子。

我们制定了一个新的电视音频描述数据集。

我们提出的方法名为AutoAD-Zero,在电影和电视剧的AD生成中表现出色,甚至可与一些基于真实AD进行微调的模型相竞争,实现了最先进的CRITIC分数。

2、BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes

中文标题:BoostMVSNeRFs:将基于 MVS 的 NeRFs 提升到大规模场景中的可泛化视图合成

简介:虽然神经辐射场(NeRF)展示了出色的质量,但其漫长的训练时间仍然是一个限制因素。虽然可减少训练时间的通用和基于多视角重建的NeRF可以缓解这一问题,但往往会在质量上产生权衡。

本文提出了一种名为BoostMVSNeRFs的新方法,以提高大规模场景中基于多视角重建的NeRF的渲染质量。首先,我们确定了基于多视角重建的NeRF方法的局限性,例如受限的视口覆盖范围和由于有限输入视图而产生的伪影。

为了解决这些限制,我们提出了一种新方法,在体积渲染期间选择和组合多个代价体。我们的方法不需要训练,可以以前馈方式适应任何基于多视角重建的NeRF方法以提高渲染质量。此外,我们的方法也可以进行端到端的训练,允许在特定场景中进行微调。

我们通过对大规模数据集进行实验来展示我们方法的有效性,在大规模场景和无限制的户外场景中显示出显著的渲染质量改进。我们在https://su-terry.github.io/BoostMVSNeRFs/发布了BoostMVSNeRFs的源代码。

3、Reconstructing Training Data From Real World Models Trained with Transfer Learning

中文标题:从经过迁移学习训练的真实世界模型重建训练数据

简介:本文提出了一种新方法,使得在高分辨率图像上训练的模型能够在现实场景中进行数据重建。与之前的方法相比,我们的方法具有以下优点:

适应性强:我们将先前的重建方案(arXiv:2206.07758)迁移到现实场景中,特别针对使用大型预训练模型(如DINO-ViT和CLIP)进行迁移学习训练的模型。

适用性广泛:我们的方法在嵌入空间而不是图像空间中进行数据重建,展示了它在视觉数据之外的适用性。

识别改进:我们引入了一种新的基于聚类的方法,从成千上万个候选项中识别出好的重建结果,显著改进了以往依赖于训练集知识的方法。

隐私风险揭示:我们的研究结果揭示了使用迁移学习训练的模型可能存在数据泄露的潜在隐私风险。

与此前方法相比,我们的方法在现实场景中展现出了更强的适应性和广泛性,并提出了更优秀的结果识别机制,为该领域的进一步发展提供了有价值的研究洞见。

相关推荐
呃呃本3 小时前
算法题(回溯)
算法
大模型推理3 小时前
Nano-vLLM 源码解读 - 2. Sequence 状态机与请求生命周期
人工智能
cxr8283 小时前
从多目标定义到闭环实验验证的系统工程
人工智能·智能体·逆向合成·材料设计合成
刀法如飞3 小时前
Rust数组去重的20种实现方式,AI时代用不同思路解决问题
人工智能·算法·ai编程
code_pgf3 小时前
OpenClaw的tools与skills详解
人工智能
user80395279525433 小时前
Codex 新人上手——从需求到上线的完整工作流
人工智能
yxc_inspire3 小时前
25年CCPC福建邀请赛补题
学习·算法
Raink老师3 小时前
用100道题拿下你的算法面试(链表篇-4):合并 K 个有序链表
算法·链表·面试
阿斯加德D3 小时前
《霍格沃茨之遗》风灵月影修改器下载(已汉化)2026最新版
人工智能·测试工具·游戏·3d·游戏程序
HIT_Weston3 小时前
75、【Agent】【OpenCode】用户对话提示词(question 工具)
人工智能·agent·opencode