CV最新论文｜4月10日 arXiv更新论文合集

以下内容由马拉AI整理，今天为大家带来4月10日 arXiv 计算机视觉和模式识别相关论文：

1、InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

InternLM-XComposer2-4KHD：一种开创性的大型视觉语言模型，可处理从 336 像素 到 4K 高清的分辨率

摘要：大型视觉语言模型（LVLM）领域取得了重大进展，但由于分辨率有限，其发展受到理解细粒度视觉内容的挑战的阻碍。最近的努力旨在增强LVLM的高分辨率理解能力，但它们仍然被限制在大约1500 x 1500像素，并被限制在相对狭窄的分辨率范围内。本文代表了 InternLM-XComposer2-4KHD，这是一项突破性的探索，旨在将 LVLM 分辨率功能提升到 4K HD （3840 x 1600）及更高。同时，考虑到超高分辨率可能并非在所有场景下都必需，它支持从336像素到4K标准的各种分辨率，大大拓宽了其适用范围。具体来说，这项研究通过引入一种新的扩展来推进补丁划分范式：具有自动补丁配置的动态分辨率。它保持训练图像纵横比，同时自动改变斑块数，并根据预先训练的视觉转换器（ViT）（336 x 336）配置布局，从而实现从 336 像素到 4K 标准的动态训练分辨率。我们的研究表明，将训练分辨率扩展到 4K 高清可以带来持续的性能增强，而不会达到潜在改进的上限。InternLM-XComposer2-4KHD 在 16 项基准测试中的 10 项中表现出与 GPT-4V 和 Gemini Pro 相媲美甚至超越的卓越能力。具有 7B 参数的 InternLM-XComposer2-4KHD 模型系列可在此 https URL 上公开获得。

2、MoReVQA: Exploring Modular Reasoning Models for Video Question Answering

MoReVQA：探索视频问答的模块化推理模型

摘要：本文通过分解的多阶段、模块化推理框架来解决视频问答（videoQA）的任务。以前的模块化方法已经显示出前景，单一的规划阶段不以视觉内容为基础。然而，通过一个简单而有效的基线，我们发现这样的系统在实践中会导致具有挑战性的视频QA设置的脆弱行为。因此，与传统的单阶段规划方法不同，我们提出了一个多阶段系统，该系统由事件解析器、接地阶段和最终推理阶段以及外部存储器组成。所有阶段都是免训练的，并使用大型模型的少量提示来执行，在每个阶段创建可解释的中间输出。通过分解底层规划和任务复杂性，我们的方法 MoReVQA 改进了之前在标准视频 QA 基准测试（NExT-QA、iVQA、EgoSchema、ActivityNet-QA）上的工作，并获得了最先进的结果，并扩展了相关任务（接地视频 QA、段落字幕）。

3、Can Feedback Enhance Semantic Grounding in Large Vision-Language Models?

反馈能否增强大型视觉语言模型的语义基础？

摘要：增强视觉语言模型（VLM）中的语义基础能力通常涉及收集特定领域的训练数据、改进网络架构或修改训练配方。在这项工作中，我们冒险进入一个正交方向，探索VLM是否可以通过"接收"反馈来改善其语义基础，而无需域内数据、微调或修改网络架构。我们使用由二进制信号组成的反馈机制系统地分析了这一假设。我们发现，如果提示得当，VLM 可以在单个步骤和迭代中利用反馈，展示了反馈作为改善互联网规模 VLM 基础的替代技术的潜力。此外，VLM 和 LLM 一样，很难开箱即用地自我纠正错误。但是，我们发现可以通过二进制验证机制来缓解此问题。最后，我们探讨了合并这些发现并迭代应用它们以自动增强 VLM 接地性能的潜力和局限性，表明在所研究的所有设置中使用所有模型的自动反馈，接地精度不断提高。总体而言，我们的迭代框架在无噪声反馈下将 VLM 的语义基础提高了 15 个以上的精度点，在简单的自动二进制验证机制下提高了多达 5 个精度点。项目网站托管在此 https URL 上

4、Reconstructing Hand-Held Objects in 3D

在 3D 中重建手持对象

摘要：用手操作的物体（即操纵物）在野外RGB图像或视频中重建特别具有挑战性。手不仅遮挡了大部分物体，而且物体通常只在少量图像像素中可见。同时，在这种设置中出现了两个强大的锚点：（1）估计的3D指针有助于消除物体的位置和比例的歧义，以及（2）相对于所有可能的物体，操纵集都很小。考虑到这些见解，我们提出了一种可扩展的手持对象重建范式，该范式建立在大型语言/视觉模型和 3D 对象数据集的最新突破之上。我们的模型 MCC-Hand-Object （MCC-HO）在给定单个 RGB 图像和推断 3D 手作为输入的情况下共同重建手和物体几何形状。随后，我们使用 GPT-4（V）检索与图像中对象匹配的 3D 对象模型，并将模型与网络推断的几何体刚对齐;我们称这种对齐为检索增强重建（RAR）。实验表明，MCC-HO在实验室和互联网数据集上实现了最先进的性能，我们展示了如何使用RAR自动获取手与物体交互的野外图像的3D标签。

5、Flying With Photons: Rendering Novel Views of Propagating Light

与光子一起飞行：渲染传播光的新视图

摘要：我们提出了一种成像和神经渲染技术，该技术旨在从新颖的移动摄像机视角合成光在场景中传播的视频。我们的方法依赖于一种新的超快成像设置，以皮秒级的时间分辨率捕获同类首创的多视点视频数据集。结合该数据集，我们引入了一个基于瞬态场的高效神经体积渲染框架。该场被定义为从 3D 点和 2D 方向到高维离散时间信号的映射，该信号表示超快时间尺度下的时变辐射。使用瞬态场进行渲染时，自然会考虑由于光速有限而产生的影响，包括由光传播延迟到相机引起的与视点相关的外观变化。我们渲染了一系列复杂的效果，包括散射、镜面反射、折射和衍射。此外，我们还演示了使用时间扭曲程序、相对论效应的渲染以及光传输的直接和全局分量的视频合成来消除视点相关的传播延迟。

6、RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos

RhythmMamba：使用任意长度视频进行快速远程生理测量

摘要：远程光电容积脉搏波（rPPG）是一种用于检测面部视频中生理信号的非接触式方法，在医疗保健、情感计算和反欺骗等各种应用中具有巨大潜力。现有的深度学习方法难以同时解决rPPG的两个核心问题：从具有大时空冗余的视频片段中提取弱rPPG信号，以及理解长上下文中rPPG的周期性模式。这代表了计算复杂性和捕获远程依赖关系的能力之间的权衡，对适合部署在移动设备上的 rPPG 提出了挑战。在深入探索Mamba对时空信息理解的基础上，本文介绍了RhythmMamba，这是一种基于Mamba的端到端方法，采用多时态Mamba来约束周期模式和短期趋势，并结合频域前馈，使Mamba能够稳健地理解rPPG的准周期模式。大量实验表明，RhythmMamba 以更少的参数和更低的计算复杂度实现了最先进的性能。建议的 RhythmMamba 可以应用于任何长度的视频片段，而不会降低性能。这些代码可在此 https URL 上找到。

7、Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes

从具有状态、姿态和视点变化的图像集合中学习对象的状态不变表示

摘要：我们在更常用的其他不变性中添加了一个不变性 - 状态不变性 - 用于学习用于识别和检索的对象表示。通过状态不变性，我们的意思是对物体结构形式变化的鲁棒性，例如当雨伞折叠时，或者当一件衣服被扔在地板上时。由于尽管有这种状态变化，人类在识别物体方面通常没有困难，因此我们自然会面临是否有可能设计出具有类似能力的神经架构的问题。为此，我们提出了一个新颖的数据集 ObjectsWithStateChange，它捕获从任意视点记录的对象图像中的状态和姿态变化。我们相信，该数据集将促进对能够进行状态变化的物体的细粒度物体识别和检索的研究。这种研究的目标是训练能够生成对象嵌入的模型，这些嵌入对状态变化保持不变，同时对视点、姿势、照明等变化引起的变换保持不变。为了证明 ObjectsWithStateChange 数据集的有用性，我们还提出了一种课程学习策略，该策略使用每个纪元后学习嵌入空间中的相似性关系来指导训练过程。该模型通过比较不同类别内和不同类别之间视觉上相似的对象来学习判别特征，鼓励它区分由于状态变化而可能难以区分的对象。我们相信，这种策略增强了模型捕获细粒度任务的判别特征的能力，这些任务可能涉及状态更改的对象，从而不仅在我们的新数据集上，而且在另外两个具有挑战性的多视图数据集（如 ModelNet40 和 ObjectPI）上提高了对象级任务的性能。

8、PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits

PURE：通过识别相关电路将多义 神经元 转化为纯特征

摘要：机理可解释性领域旨在研究单个神经元在深度神经网络中的作用。然而，单个神经元具有多义行为和编码多个（不相关）特征的能力，这使得它们的解释变得困难。我们提出了一种通过将多义神经元分解为多个单语义"虚拟"神经元来解开任何深度神经网络的多义性的方法。这是通过识别每个"纯"特征的相关子图（"电路"）来实现的。我们演示了我们的方法如何允许我们找到并解开在 ImageNet 上训练的 ResNet 模型的各种多义单元。在使用 CLIP 评估特征可视化时，我们的方法有效地解开了表征，改进了基于神经元激活的方法。我们的代码可在此 https URL 上找到。

9、SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions

SmartControl：增强 ControlNet 以处理恶劣的视觉条件

摘要:人类的视觉想象力通常始于类比或粗略的草图。例如，给定一张女孩在建筑物前弹吉他的图像，人们可以类比地想象钢铁侠在埃及金字塔前弹吉他的样子。尽管如此，视觉条件可能与文本提示指示的假想结果不完全一致，并且现有的布局可控文本到图像（T2I）生成模型容易产生具有明显伪影的降级生成结果。为了解决这个问题，我们提出了一种名为SmartControl的新型T2I生成方法，该方法旨在修改粗糙的视觉条件以适应文本提示。我们 SmartControl 的关键思想是放松与文本提示冲突区域的视觉条件。具体而言，设计了控制尺度预测器（Control Scale Predictor，CSP）来识别冲突区域并预测局部控制尺度，同时构建了具有文本提示和粗略视觉条件的数据集，用于训练CSP。值得注意的是，即使训练样本数量有限（例如1,000~2,000），我们的SmartControl也可以很好地泛化到看不见的物体。对四种典型视觉状况类型的广泛实验清楚地表明，我们的 SmartControl 对最先进的技术具有有效性。源代码、预训练模型和数据集可在此 https URL 上找到。

10、Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition

面向面部动作单元识别的多尺度动态与分层关系建模

摘要：人类面部动作单元（AU）以分层方式相互关联，因为它们不仅在空间和时间领域相互关联，而且位于相同/近距离面部区域的 AU 比位于不同面部区域的 AU 表现出更强的关系。虽然现有方法均未对AU之间的这种层次相互依赖性进行彻底建模，但本文建议对AUs之间与AU相关的多尺度动态和分层时空关系进行综合建模，以便识别其发生。具体而言，我们首先提出了一种具有自适应加权块的新型多尺度时间差分网络，以在不同空间尺度上明确捕获跨帧的面部动态，该网络特别考虑了不同AU激活的范围和幅度的异质性。然后，引入两阶段策略，基于AU的空间分布对AU之间的关系进行分层建模（即局部和跨区域AU关系建模）。在BP4D和DISFA上取得的实验结果表明，我们的方法是AU发生识别领域的新技术。我们的代码在此 https URL 上公开提供。

11、QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding

QueSTMaps：用于 3D 场景理解的可查询语义拓扑图

摘要：从房间的角度理解 3D 室内场景的结构组织通常是通过平面图提取来完成的。规划和导航等机器人任务也需要对场景进行语义理解。这通常是通过对象级语义分割来实现的。然而，这些方法很难分割出场景中的"厨房"等拓扑区域。在这项工作中，我们引入了一个两步管道。首先，我们提取了一个拓扑图，即使用新颖的多通道占用表示的室内场景的平面图。然后，我们使用自注意力转换器，根据每个房间实例所包含的对象，为每个房间实例生成 CLIP 对齐的特征和语义标签。我们的语言拓扑对齐支持自然语言查询，例如，"做饭的地方"定位"厨房"。我们在房间分割方面比目前最先进的技术高出 ~20%，在房间分类方面比目前最先进的技术高出 ~12%。我们详细的定性分析和消融研究为关节结构和语义 3D 场景理解问题提供了见解。

12、Seasonal Fire Prediction using Spatio-Temporal Deep Neural Networks

使用时空 深度神经网络 的季节性火灾预测

摘要：由于气候变化预计将加剧火灾天气状况，因此准确预测全球范围内的野火对于减灾变得越来越重要。在这项研究中，我们利用 SeasFire，一个包含气候、植被、海洋指数和人类相关变量的综合性全球野火数据集，通过机器学习实现季节性野火预测。对于预测分析，我们使用不同的架构训练深度学习模型，以捕获导致野火的时空环境。我们的调查重点是评估这些模型在预测全球不同预测时间范围内（持续到未来六个月）存在烧毁区域方面的有效性，以及不同的空间或/和时间环境如何影响模型的性能。我们的研究结果证明了深度学习模型在季节性火灾预测中的巨大潜力;更长的输入时间序列可以在不同的预测范围内进行更稳健的预测，同时集成空间信息以捕获野火时空动态可提高性能。最后，我们的研究结果表明，为了提高更长的预测范围的性能，需要考虑更大的空间感受野。

13、Magic-Boost: Boost 3D Generation with Mutli-View Conditioned Diffusion

Magic-Boost：使用多视图条件扩散增强 3D 生成

摘要：得益于2D扩散模型的快速发展，3D内容创作最近取得了重大进展。一个有前途的解决方案是对预先训练的2D扩散模型进行微调，以利用它们生成多视图图像的能力，然后通过快速NeRF或大型重建模型等方法将其提升为精确的3D模型。然而，由于不一致仍然存在，生成的分辨率有限，因此这些方法的生成结果仍然缺乏复杂的纹理和复杂的几何形状。为了解决这个问题，我们提出了Magic-Boost，这是一种多视图条件扩散模型，它通过短暂的SDS优化（ $\\sim15$ min）显着细化了粗略的生成结果。与之前基于文本或单图像的扩散模型相比，Magic-Boost 表现出强大的能力，可以从伪合成的多视图图像中生成具有高度一致性的图像。它提供了精确的 SDS 指导，与输入图像的身份非常吻合，丰富了初始生成结果的几何形状和纹理的局部细节。大量实验表明，Magic-Boost 大大增强了粗略的输入，并生成了具有丰富几何和纹理细节的高质量 3D 资产。（项目页面：此 https URL)

14、ZeST: Zero-Shot Material Transfer from a Single Image

ZeST：从单张图像转印零样本材料

摘要：我们提出了ZeST，这是一种在给定材料示例图像的情况下将零样本材料转移到输入图像中对象的方法。ZeST 利用现有的扩散适配器从示例图像中提取隐式材料表示。此表示用于在输入图像中的对象上使用预训练的修饰扩散模型传输材质，使用深度估计作为几何提示，将灰度对象阴影作为照明提示。该方法无需任何训练即可处理真实图像，从而产生零样本方法。真实和合成数据集的定性和定量结果都表明，ZeST输出的逼真图像与转移材料有关。我们还展示了ZeST在不同照明下执行多重编辑和鲁棒材料分配的应用。项目页面：此 https URL

15、Emergent Dynamics in Neural Cellular Automata

神经细胞 自动机 中的涌现动力学

摘要：神经元胞自动机（NCA）模型是传统元胞自动机（CA）的可训练变体。NCA 创建的图案中的涌现运动已成功应用于合成动态纹理。但是，NCA 显示动态模式所需的条件仍未探索。在这里，我们研究了NCA架构与训练模型的涌现动力学之间的关系。具体来说，我们改变了细胞状态中的通道数量和多层感知器（MLP）中隐藏神经元的数量，并在这两个变量的组合与连续帧之间的运动强度之间建立了关系。我们的分析表明，这两个变量之间的差异和比例性与NCA输出中的涌现动态具有很强的相关性。因此，我们提出了一个创建动态 NCA 的设计原则。

16、VISION2UI: A Real-World Dataset with Layout for Code Generation from UI Designs

VISION2UI：具有用于从 UI 设计生成代码的布局的真实数据集

摘要：从网页设计愿景自动生成 UI 代码可以显著减轻开发人员的负担，使初学者或设计人员能够直接从设计图生成网页。目前，先前的研究已经实现了通过设计深度神经网络从基本设计愿景或草图生成UI代码的目标。受多模态大型语言模型（MLLM）取得突破性进展的启发，从高保真设计图像自动生成 UI 代码现在正成为一种可行的可能性。然而，我们的调查显示，现有的MLLM受到真实、高质量和大规模数据集稀缺的阻碍，导致自动化UI代码生成的性能不尽如人意。为了缩小这一差距，我们提出了一个新颖的数据集，称为 VISION2UI，从真实场景中提取，并增强了全面的布局信息，专门为微调 UI 代码生成中的 MLLM 量身定制。具体而言，此数据集是通过一系列操作派生的，包括对开源 Common Crawl 数据集的收集、清理和筛选。为了保持其质量，利用在标记样本上训练的神经评分器来优化数据，保留更高质量的实例。最终，此过程将生成一个包含 2,000 个（即将推出更多）并行样本的数据集，其中包含设计愿景和 UI 代码。数据集可在此 https URL 上获得。

17、Dynamic Resolution Guidance for Facial Expression Recognition

面部表情识别的动态分辨率指导

摘要：面部表情识别（FER）对于人机交互和情感分析至关重要，但识别低分辨率图像中的表情仍然具有挑战性。本文介绍了一种实用的面部表情识别动态分辨率指导（DRGFER），可以在不影响FER模型精度的情况下有效地识别不同分辨率图像中的面部表情。我们的框架由两个主要组件组成：分辨率识别网络（RRN）和多分辨率适应面部表情识别网络（MRAFER）。RRN 确定图像分辨率，输出二进制向量，MRAFER 根据分辨率将图像分配给合适的面部表情识别网络。我们在广泛使用的数据集 RAFDB 和 FERPlus 上评估了 DRGFER，证明我们的方法在每种分辨率下都能保持最佳模型性能，并且优于其他分辨率方法。所提出的框架表现出对分辨率变化和面部表情的鲁棒性，为实际应用提供了有前途的解决方案。

18、Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation

使用 SaLIP 进行测试时适配：SAM 和 CLIP 的 级联 ，用于零镜头医学图像分割

摘要：Segment Anything 模型（SAM）和 CLIP 是卓越的视觉基础模型（VFM）。SAM 是一种提示驱动的细分模型，在跨不同领域的细分任务中表现出色，而 CLIP 则以其零样本识别功能而闻名。然而，它们的统一潜力尚未在医学图像分割中得到探索。为了使SAM适应医学成像，现有方法主要依赖于调整策略，这些策略需要大量数据或针对特定任务量身定制的事先提示，因此在只有有限数量的数据样本可用时尤其具有挑战性。这项工作深入探讨了将SAM和CLIP集成到医学图像分割的统一框架中。具体来说，我们提出了一个简单的统一框架，SaLIP，用于器官分割。最初，SAM 用于图像中基于零件的分割，然后使用 CLIP 从 SAM 生成的掩码池中检索与感兴趣区域（ROI）相对应的掩模。最后，检索到的 ROI 会提示 SAM 对特定器官进行分割。因此，SaLIP 无需训练和微调，也不依赖领域专业知识或标记数据进行快速工程设计。我们的方法显示了零镜头分割的显着增强，与未提示的 SAM 相比，在大脑（63.46%）、肺（50.11%）和胎儿头部（30.82%）等各种分割任务中，DICE 分数显着提高。代码和文本提示将在线提供。

19、DaF-BEVSeg: Distortion-aware Fisheye Camera based Bird's Eye View Segmentation with Occlusion Reasoning

DaF-BEVSeg：基于失真感知鱼眼相机的鸟瞰图分割与遮挡推理

摘要：语义分割是执行场景理解的有效方法。最近，3D 鸟瞰图（BEV）空间中的分割因其直接用于驱动策略而变得流行。然而，商用车中常用的环视鱼眼摄像头的BEV分割工作有限。由于此任务没有真实世界的公共数据集，并且由于遮挡，现有的合成数据集无法处理模态区域，因此我们使用 Cognata 模拟器创建了一个合成数据集，其中包含不同的道路类型、天气和照明条件。我们将 BEV 细分推广到任何相机型号;这对于混合各种相机很有用。我们通过对鱼眼图像应用圆柱形校正并使用基于LSS的标准BEV分割模型来实现基线。我们证明，我们可以在不失真的情况下获得更好的性能，这会产生由于预处理、缩小视场和重采样伪影而增加运行时间的不利影响。此外，我们还引入了一种失真感知可学习的BEV池化策略，该策略对鱼眼镜头相机更有效。我们用遮挡推理模块扩展了模型，这对于在 BEV 空间中进行估计至关重要。DaF-BEVSeg 的定性性能在此 https URL 的视频中展示。

20、HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

HPNet：具有历史预测注意力的动态轨迹预测

摘要：预测道路智能体的轨迹对于自动驾驶系统至关重要。最近的主流方法遵循静态范式，即使用固定持续时间的历史框架来预测未来的轨迹。这些方法即使在相邻的时间步长中也能独立进行预测，这会导致潜在的不稳定性和时间不一致。由于连续的时间步长在很大程度上具有重叠的历史框架，因此它们的预测应具有内在相关性，例如重叠的预测轨迹应保持一致，或者不同但具有相同的运动目标，具体取决于道路情况。受此启发，在这项工作中，我们介绍了HPNet，一种新颖的动态轨迹预测方法。为了实现稳定准确的轨迹预测，我们的方法不仅利用了包括地图和代理状态在内的历史框架，还利用了历史预测。具体来说，我们新设计了一个历史预测注意力模块，用于自动编码连续预测之间的动态关系。此外，它还将注意力范围扩展到当前可见窗口之外，受益于历史预测的使用。所提出的历史预测注意力与智能体注意力和模式注意力一起被进一步表述为三重因素注意力模块，作为HPNet的核心设计.在Argoverse和INTERACTION数据集上的实验表明，HPNet实现了最先进的性能，并产生了准确和稳定的未来轨迹。我们的代码可在此 https URL 上找到。