【AI视野·今日CV 计算机视觉论文速览第278期】Mon, 30 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览

Mon, 30 Oct 2023
Totally 50 papers
👉上期速览✈更多精彩请移步主页

Daily Computer Vision Papers

|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Image Clustering Conditioned on Text Criteria Authors Sehyun Kwon, Jaeseung Park, Minkyu Kim, Jaewoong Cho, Ernest K. Ryu, Kangwook Lee 经典的聚类方法不为用户提供对聚类结果的直接控制，并且聚类结果可能与用户心目中的相关标准不一致。在这项工作中，我们提出了一种新的方法，通过利用现代视觉语言模型和大型语言模型，根据用户指定的文本标准执行图像聚类。我们将我们的方法称为"以文本条件为条件的图像聚类 IC TC"，它代表了图像聚类的不同范式。 IC TC 需要最低限度且实用的人工干预，并授予用户对聚类结果的显着控制权。 |
| Always Clear Days: Degradation Type and Severity Aware All-In-One Adverse Weather Removal Authors Yu Wei Chen, Soo Chang Pei 多合一恶劣天气去除是图像恢复的一个新兴课题，其目的是在统一的模型中恢复多种天气退化，挑战是双重的。首先，发现并处理多种天气条件形成的目标分布的多域特性。其次，针对不同的退化类型设计高效且有效的操作。为了解决这个问题，大多数现有工作都集中在天气类型引起的多域上。受域内适应文献的启发，我们观察到，不仅天气类型而且天气严重程度在每个天气类型域内引入了多个域，这是以前的方法所忽略的，并进一步限制了它们的性能。为此，我们提出了一种退化类型和严重性感知模型，称为 textbf UtilityIR ，用于盲目的多合一恶劣天气图像恢复。为了从单幅图像中提取天气信息，我们提出了一种新颖的边际质量排名损失 MQRL，并利用对比损失 CL 来指导天气严重程度和类型提取，并利用了多头交叉注意力 MHCA 和局部全局自适应实例归一化等一系列新技术LG AdaIN 可有效恢复空间变化的天气退化。该方法在不同的天气恢复任务上主观和客观上均明显优于SOTA方法，且模型参数较少。所提出的方法甚至可以结合多个退化图像来恢复textbf未见过的域，并调节恢复级别。 |
| FOUND: Foot Optimization with Uncertain Normals for Surface Deformation Using Synthetic Data Authors Oliver Boyne, Gwangbin Bae, James Charles, Roberto Cipolla 多视图图像的表面重建是一项具有挑战性的任务，解决方案通常需要大量具有高度重叠的采样图像。我们寻求开发一种针对人脚的情况进行少量视图重建的方法。为了解决这个任务，我们必须从 RGB 图像中提取丰富的几何线索，然后小心地将它们融合到最终的 3D 对象中。我们的 FOUND 方法解决了这个问题，有 4 个主要贡献 i SynFoot，一个包含 50,000 个真实脚部图像的合成数据集，与地面真实表面法线和关键点配对 ii 在我们的合成数据集上训练的不确定性表面法线预测器 iii 一个用于拟合生成模型的优化方案足部模型到一系列图像，以及校准图像和高分辨率地面真实几何的基准数据集。我们表明，我们的正常预测器在真实图像上显着优于所有现成的等效物，并且我们的优化方案优于最先进的摄影测量管道，特别是对于一些视图设置。 |
| LipSim: A Provably Robust Perceptual Similarity Metric Authors Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Farshad Khorrami, Siddharth Garg 近年来，人们对开发和应用感知相似性度量越来越感兴趣。研究表明，感知指标在与人类感知一致并作为人类视觉系统的代理方面优于像素指标。另一方面，由于感知指标依赖于神经网络，鉴于神经网络对对抗性攻击的脆弱性，人们越来越担心它们的弹性。推断感知度量可能继承神经网络的优点和缺点确实是合乎逻辑的。在这项工作中，我们展示了基于 ViT 特征提取器集合的最先进的感知相似性度量对对抗性攻击的脆弱性。然后，我们提出了一个框架来训练一个强大的感知相似度度量，称为 LipSim Lipschitz 相似度度量，并具有可证明的保证。通过利用 1 Lipschitz 神经网络作为骨干，LipSim 在每个数据点周围提供防护区域，并为 ell 2 球内的所有扰动提供证书。最后，一组全面的实验展示了 LipSim 在自然和认证分数以及图像检索应用方面的性能。 |
| PlantPlotGAN: A Physics-Informed Generative Adversarial Network for Plant Disease Prediction Authors Felipe A. Lopes, Vasit Sagan, Flavio Esposito 监测种植园对于作物管理和健康收成至关重要。无人机已被用来收集多光谱图像，以帮助进行这种监控。然而，考虑到要监测的公顷数和飞行的限制，植物病害信号只有在植物生长的后期并且只有当病害已蔓延到种植园的很大一部分时才在视觉上变得清晰。有限数量的相关数据阻碍了预测模型，因为算法很难有效地概括具有不平衡或不切实际的增强数据集的模式。为了解决这个问题，我们提出了 PlantPlotGAN，这是一种基于物理的生成模型，能够创建具有真实植被指数的合成多光谱绘图图像。这些指数充当疾病检测的代理，并用于评估我们的模型是否有助于提高预测模型的准确性。结果表明，PlantPlotGAN 生成的合成图像在 Fr chet 起始距离方面优于最先进的方法。 |
| A Self-Supervised Approach to Land Cover Segmentation Authors Charles Moore, Dakota Hester Mississippi State University 土地利用土地覆盖变化 LULC 地图是地球科学和农业研究中不可或缺的资源。由于此类地图的性质，土地利用和土地利用地图的创建通常受到准确注释卫星图像和遥感数据所需的时间和人力资源的限制。虽然执行语义分割以根据此类数据创建详细标签的计算机视觉模型并不罕见，但对于在不使用地面真实掩模的情况下标记 LULC 地图的自监督和无监督方法进行的研究很少。在这里，我们演示了一种自我监督的土地覆盖分割方法，不需要高质量的地面真实标签。所提出的深度学习采用了从 STEGO 架构中的 DINO 传输的冷冻预训练 ViT 主干，并使用由非常高分辨率的 VHR 卫星图像组成的自定义数据集进行微调。 |
| Generative AI Model for Artistic Style Transfer Using Convolutional Neural Networks Authors Jonayet Miah, Duc M Cao, Md Abu Sayed, Md. Sabbirul Haque 艺术风格迁移是生成人工智能的一种迷人应用，涉及将一幅图像的内容与另一幅图像的艺术风格融合，以创造独特的视觉作品。本文全面概述了使用卷积神经网络 CNN 进行风格迁移的新技术。通过利用 CNN 学习的深度图像表示，我们演示了如何分离和操纵图像内容和风格，从而能够合成以和谐方式结合内容和风格的高质量图像。 |
| How Re-sampling Helps for Long-Tail Learning? Authors Jiang Xin Shi, Tong Wei, Yuke Xiang, Yu Feng Li 近年来，长尾学习由于其对极其不平衡的数据集带来的挑战而受到了极大的关注。在这些数据集中，只有少数称为头类的类具有足够数量的训练样本，而其余称为尾类的类在训练数据中并不常见。重新采样是解决类别不平衡问题的经典且广泛使用的方法。不幸的是，最近的研究表明，重新采样在现代长尾学习任务中带来的性能提升可以忽略不计。本文旨在系统地研究这一现象。我们的研究表明，当训练图像不包含语义不相关的上下文时，重新采样可以显着提高泛化能力。然而，在其他情况下，它可以学习不相关上下文和目标标签之间意想不到的虚假相关性。我们在两个同质数据集上设计实验，一个包含不相关的上下文，另一个不包含，以证实我们的发现。为了防止学习虚假相关性，我们提出了一种新的上下文移位增强模块，该模块通过维护从头类图像中提取的上下文库来为尾类生成不同的训练图像。实验表明，我们提出的模块可以提高泛化能力并优于其他方法，包括类平衡重采样、解耦分类器重训练和数据增强方法。 |
| Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-Image Generation Authors Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont Tuset, Su Wang 评估文本到图像模型是出了名的困难。最近评估文本图像可信度的一种强大方法是基于 QG A 问题生成和回答，它使用预先训练的基础模型根据提示自动生成一组问题和答案，并根据这些答案是否使用提取来对输出图像进行评分视觉问答模型与基于提示的答案一致。这种评估自然取决于底层 QG 和 QA 模型的质量。我们识别并解决了现有 QG A 工作中的几个可靠性挑战 a QG 问题应尊重提示，避免幻觉、重复和遗漏 b VQA 答案应保持一致，不要断言图像中没有摩托车，同时又声称摩托车是蓝色的。我们使用戴维森场景图 DSG 来解决这些问题，这是一个受形式语义启发的基于经验的评估框架。 DSG 是一种基于图形的自动 QG A，采用模块化实现，可适应任何 QG A 模块。 DSG 生成以依赖关系图组织的原子且独特的问题，这确保了适当的语义覆盖并避免了不一致的答案。通过对一系列模型配置 LLM、VQA 和 T2I 进行广泛的实验和人工评估，我们凭经验证明 DSG 解决了上述挑战。最后，我们推出 DSG 1k，这是一个开源评估基准，包含 1,060 个提示，涵盖广泛的细粒度语义类别，且分布均衡。 |
| Semi-Supervised Panoptic Narrative Grounding Authors Danni Yang, Jiayi Ji, Xiaoshuai Sun, Haowei Wang, Yinan Li, Yiwei Ma, Rongrong Ji 尽管取得了相当大的进展，但全景叙事基础巴布亚新几内亚的进步仍然受到昂贵的注释的阻碍。在本文中，我们介绍了一种新颖的半监督全景叙事基础 SS PNG 学习方案，利用较小的标记图像文本对集和较大的未标记图像对集来实现竞争性能。与视觉分割任务不同，PNG 涉及属于多个开放式名词的一个像素。因此，现有的基于多类的半监督分割框架不能直接应用于此任务。为了应对这一挑战，我们首先开发了一种针对 SS PNG 设置的新型 SS PNG 网络 SS PNG NW。我们彻底研究了烧入和数据增强等策略，以确定 SS PNG NW 的最佳通用配置。此外，为了解决伪标签质量不平衡的问题，我们提出了一种基于质量的损失调整 QLA 方法来调整半监督目标，从而得到增强的 SS PNG NW 。采用我们提出的 QLA，我们分别在像素和掩模级别改进了 BCE 损失和 Dice 损失。我们对 PNG 数据集进行了广泛的实验，我们的 SS PNG NW 展示了与所有数据比率的完全监督模型相当的有希望的结果。值得注意的是，我们的 SS PNG NW 优于仅具有 30 和 50 个监督数据的完全监督模型，分别超出了 0.8 和 1.1。这凸显了我们提出的 SS PNG NW 在克服有限注释带来的挑战和增强 PNG 任务的适用性方面的有效性。 |
| Unsupervised Representation Learning for Diverse Deformable Shape Collections Authors Sara Hahner, Souhaib Attaiki, Jochen Garcke, Maks Ovsjanikov 我们引入了一种新颖的基于学习的方法来编码和操作 3D 表面网格。我们的方法专门设计用于为可变形形状集合创建可解释的嵌入空间。与之前要求网格处于 1 对 1 对应关系的 3D 网格自动编码器不同，我们的方法以无监督的方式在不同的网格上进行训练。我们方法的核心是光谱池技术，它建立了一个通用的潜在空间，摆脱了网格连通性和形状类别的传统限制。整个过程由两个阶段组成。在第一阶段，我们采用功能地图范例以无监督的方式提取形状集合之间的点对点 p2p 地图。然后利用这些 p2p 映射来构建一个公共潜在空间，这确保了直接解释并独立于网格连接和形状类别。 |
| End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context Authors Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao 在这封信中，我们提出了一种新方法，Multi Clue Gaze MCGaze，通过以端到端学习方式捕获头部、面部和眼睛之间的时空交互上下文来促进视频注视估计，该方法尚未得到充分关注。 MCGaze 的主要优点是可以一步联合解决头部、面部和眼睛的线索定位任务，以进行注视估计，并通过联合优化来寻求最佳性能。在此期间，头部、面部和眼睛上的线索之间发生时空上下文交换。因此，通过融合来自各种查询的特征获得的最终凝视可以同时了解来自头部和面部的全局线索以及来自眼睛的局部线索，这本质上利用了性能。同时，一步式运行方式也保证了较高的运行效率。在具有挑战性的 Gaze360 数据集上进行的实验验证了我们的命题的优越性。 |
| Direct Unsupervised Denoising Authors Benjamin Salmon, Alexander Krull 传统的监督降噪器是使用成对的噪声输入和干净的目标图像进行训练的。他们学习预测可能的干净图像的后验分布的集中趋势。例如，当使用流行的二次损失函数进行训练时，网络的输出将对应于最小均方误差 MMSE 估计。基于变分自编码器 VAE 的无监督降噪器已成功实现了最先进的结果，同时仅需要不成对的噪声数据作为训练输入。与传统的监督方法相比，无监督降噪器不会直接产生单个预测，例如 MMSE 估计，而是允许我们从与噪声输入相对应的干净解的后验分布中抽取样本。为了在推理过程中近似 MMSE 估计，无监督方法必须创建并提取大量样本，这是一个计算成本高昂的过程，导致该方法在许多情况下不适用。在这里，我们提出了一种替代方法，与 VAE 一起训练确定性网络来直接预测集中趋势。 |
| Classifier-head Informed Feature Masking and Prototype-based Logit Smoothing for Out-of-Distribution Detection Authors Zhuohao Sun, Yiqiao Qiu, Zhijun Tan, Weishi Zheng, Ruixuan Wang 在现实世界中部署神经网络时，分布外 OOD 检测至关重要。一项主要挑战是神经网络经常对 OOD 数据做出过于自信的预测。在本研究中，我们提出了一种基于新的特征屏蔽策略和新颖的 logit 平滑策略的有效事后 OOD 检测方法。特征屏蔽根据分类器头中 ID 类的权重确定分布 ID 类中每个 ID 类的倒数第二层的重要特征，并屏蔽其余特征。 Logit平滑计算测试样本的特征向量与倒数第二层预测的ID类原型之间的余弦相似度，并将相似度用作logit上的自适应温度因子，以减轻网络对OOD数据的过度自信预测。通过这些策略，我们可以减少 OOD 数据的特征激活，并扩大 ID 和 OOD 数据之间 OOD 分数的差距。对多个标准 OOD 检测基准的大量实验证明了我们的方法的有效性及其与现有方法的兼容性，并且我们的方法实现了最先进的性能。 |
| A Chebyshev Confidence Guided Source-Free Domain Adaptation Framework for Medical Image Segmentation Authors Jiesi Hu, Yanwu Yang, Xutao Guo, Jinghua Wang, Ting Ma 无源域适应 SFDA 的目标是将在标记源域上训练的模型调整到未标记目标域，而无需访问源数据。在医学成像场景中，出于隐私考虑，SFDA方法的实际意义被强调。最近最先进的 SFDA 方法主要依赖于基于伪标签 PL 的自我训练。不幸的是，PL 因域转移而导致精度下降，从而限制了自适应过程的有效性。为了解决这个问题，我们提出了切比雪夫置信引导的 SFDA 框架，以准确评估 PL 的可靠性并生成用于自我训练的自我改进 PL。给定预测和相应的不确定性，切比雪夫置信度是通过计算 PL 置信度的概率下界来估计的。利用切比雪夫置信度，我们引入了两种置信引导的去噪方法：直接去噪和原型去噪。此外，我们提出了一种新颖的师生联合培训方案 TJTS，该方案结合了置信度加权模块来迭代改进 PL。 TJTS与去噪方法配合，有效阻止噪声的传播，提高PL的准确性。在不同领域场景中进行的广泛实验验证了我们提出的框架的有效性，并确立了其相对于最先进的 SFDA 方法的优越性。 |
| Text Augmented Spatial-aware Zero-shot Referring Image Segmentation Authors Yucheng Suo, Linchao Zhu, Yi Yang 在本文中，我们研究了零样本参考图像分割的挑战性任务。此任务旨在识别与引用表达式最相关的实例掩码，而无需进行像素级注释训练。先前的研究利用预先训练的跨模态模型（例如 CLIP）来将实例级掩码与引用表达式对齐。然而，CLIP只考虑图像文本对级别的对齐，忽略了细粒度的图像区域和复杂的句子匹配。然而，CLIP 只考虑图像文本对的全局级别对齐，忽略了引用句子和局部图像区域之间的细粒度匹配。为了应对这一挑战，我们引入了文本增强空间感知 TAS 零样本参考图像分割框架，该框架可免费训练且对各种视觉编码器具有鲁棒性。 TAS 结合了掩模提议网络（例如水平掩模提取）、用于挖掘图像文本相关性的文本增强视觉文本匹配分数，以及用于掩模后处理的空间整流器。值得注意的是，除了典型的视觉文本匹配分数之外，文本增强视觉文本匹配分数还利用了 P 分数和 N 分数。 P 分数用于通过替代字幕模型来缩小视觉文本域差距，其中分数是在替代模型生成的文本和引用表达之间计算的。 N 分数考虑通过负面短语挖掘对区域文本对进行细粒度对齐，从而鼓励屏蔽图像从挖掘的分散注意力的短语中排斥出来。对各种数据集进行了大量实验，包括 RefCOCO、RefCOCO 和 RefCOCOg。 |
| ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image Authors Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei Fei, Deqing Sun, Jiajun Wu 我们引入了一种 3D 感知扩散模型 ZeroNVS，用于野外场景中的单图像新颖视图合成。虽然现有的方法是针对具有遮蔽背景的单个对象而设计的，但我们提出了新技术来解决具有复杂背景的野外多对象场景所带来的挑战。具体来说，我们在捕获以对象为中心的室内和室外场景的混合数据源上训练生成先验。为了解决数据混合带来的问题，例如深度尺度模糊性，我们提出了一种新颖的相机调节参数化和归一化方案。此外，我们观察到分数蒸馏采样 SDS 在 360 度场景蒸馏过程中倾向于截断复杂背景的分布，并提出 SDS 锚定来提高合成新颖视图的多样性。我们的模型在零样本设置下的 DTU 数据集上的 LPIPS 中设置了新的最先进结果，甚至优于专门在 DTU 上训练的方法。我们进一步采用具有挑战性的 Mip NeRF 360 数据集作为单图像新颖视图合成的新基准，并在此设置中展示了强大的性能。 |
| FaultSeg Swin-UNETR: Transformer-Based Self-Supervised Pretraining Model for Fault Recognition Authors Zeren Zhang, Ran Chen, Jinwen Ma 本文介绍了一种通过自监督预训练增强地震断层识别的方法。地震断层解释在地球物理学和地质学领域具有重要意义。然而，传统的地震断层识别方法遇到了各种问题，包括对数据质量和数量的依赖，以及对解释者主观性的敏感性。目前，基于小型合成数据集提出的自动故障识别方法在应用于实际地震数据时会出现性能下降。为了应对这些挑战，我们引入了自监督学习的概念，利用大量相对容易获得的未标记地震数据进行预训练。具体来说，我们采用 Swin Transformer 模型作为核心网络，并采用 SimMIM 预训练任务来捕获与地震数据不连续性相关的独特特征。在微调阶段，受边缘检测技术的启发，我们还细化了Swin UNETR模型的结构，实现多尺度解码和融合，以实现更有效的故障检测。 |
| Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare Authors Junling Liu, Ziming Wang, Qichen Ye, Dading Chong, Peilin Zhou, Yining Hua 大型语言模型法学硕士开创了熟练理解复杂医疗保健和生物医学主题的新时代。然而，明显缺乏英语以外的语言模型和可以解释多模式输入的模型，这对于全球医疗保健的可及性至关重要。为此，本研究引入了Qilin Med VL，这是第一个旨在整合文本和视觉数据分析的中文大视觉语言模型。 Qilin Med VL 将预先训练的 Vision Transformer ViT 与基础法学硕士相结合。它经历了彻底的两阶段课程培训过程，包括功能调整和指令调整。该方法增强了模型生成医学说明和回答复杂医学查询的能力。我们还发布了 ChiMed VL，这是一个由超过 100 万个图像文本对组成的数据集。 |
| Shape-centered Representation Learning for Visible-Infrared Person Re-identification Authors Shuang Li, Jiaxu Leng, Ji Gan, Mengjingcheng Mo, Xinbo Gao 目前的可见红外人体再识别VI ReID方法优先考虑提取显着的外观特征，忽略了体形对形态变化的自然抵抗力。最初，我们通过形状和外观特征的直接串联来衡量形状的辨别潜力。然而，在形状特征的利用中仍然存在两个未解决的问题。其中之一涉及推理阶段形状特征提取对辅助模型的依赖，以及由于固有模态差异而生成的红外形状中的误差。另一个问题涉及形状和外观特征之间的相关性探索不足。为了解决上述挑战，我们提出了以形状为中心的表示学习框架 ScRL，该框架专注于学习形状特征和与形状相关的外观特征。具体来说，我们设计了形状特征传播 SFP，便于在推理过程中以最小的复杂性成本直接从原始图像中提取形状特征。为了在特征级别恢复红外人体形状的不准确性，我们提出了红外形状恢复 ISR。此外，为了获取与形状相关的外观特征，我们设计了外观特征增强AFE，它强调与身份相关的特征，同时抑制由形状特征引导的与身份无关的特征。进行了大量的实验来验证所提出的 ScRL 的有效性。 |
| Understanding Parameter Saliency via Extreme Value Theory Authors Shuo Wang, Issei Sato 近年来，深度神经网络越来越多地在整个社会中得到应用。在诊断不良模型行为时，确定哪些参数会触发错误分类非常有用。参数显着性的概念被提出，并用于通过根据参数显着性对可能导致错误分类的卷积滤波器进行排名来诊断卷积神经网络 CNN。研究还表明，微调排名靠前的显着滤波器可以有效纠正 ImageNet 上的错误识别。然而，在理解为什么参数显着性排序可以找到导致错误识别的过滤器方面仍然存在知识差距。在这项工作中，我们试图通过从统计角度（即极值理论）分析参数显着性排名来弥补差距。我们首先表明，现有的工作隐含地假设为每个滤波器计算的梯度范数遵循正态分布。然后，我们基于峰值超过阈值 POT 方法阐明了参数显着性和得分之间的关系，该方法通常用于对极值进行建模。最后，我们根据 POT 方法重新表述参数显着性，其中这种重新表述被视为统计异常检测，并且不需要现有参数显着性表述的隐式假设。我们的实验结果表明，我们的重新制定也可以检测恶意过滤器。此外，我们表明现有的参数显着性方法对深度神经网络中的层深度存在偏差。特别是，这种偏差有可能抑制过滤器的发现，这些过滤器在发生域转移的情况下会导致错误识别。 |
| What You See Is What You Detect: Towards better Object Densification in 3D detection Authors Tianran Liu, Zeping Zhang Morteza Mousa Pasandi, Robert Laganiere 最近的工作证明了激光雷达信号 3D 感知中对象完成的重要性。已经提出了几种方法，其中使用模块来致密激光扫描仪产生的点云，从而实现更好的召回和更准确的结果。沿着这个方向，我们在这项工作中提出了一种反直觉的观点，广泛使用的全形状完成方法实际上会导致更高的误差上限，特别是对于远处的物体和像行人这样的小物体。基于这一观察，我们引入了一种可见部分完成方法，该方法仅需要先前方法生成的 11.3 个预测点。为了恢复密集表示，我们提出了一种基于网格变形的方法来增强与可见前景对象相关的点集。考虑到我们的方法仅关注前景物体的可见部分以实现精确的 3D 检测，我们将我们的方法命名为"所见即检测"所见即所得。因此，我们提出的方法是一个独立于检测器的模型，由两部分组成：内部截锥体分割变压器 IFST 和网格深度完成网络 MDCNet，用于根据网格变形预测前景深度。这样，我们的模型不需要大多数基于伪激光雷达的方法所使用的耗时的全深度完成任务。我们的实验评估表明，与 KITTI 和 NuScenes 数据集上的大多数公共基线模型相比，我们的方法可以提供高达 12.2 的性能改进，将最先进的技术提升到一个新的水平。 |
| One Style is All you Need to Generate a Video Authors Sandeep Manandhar, Auguste Genovesio 在本文中，我们提出了一种基于风格的条件视频生成模型。我们引入了一种基于一组学习的正弦曲线基础的新型时间生成器。我们的方法学习独立于图像内容并且可以在不同参与者之间转移的各种动作的动态表示。与流行的方法相比，除了显着提高视频质量之外，我们还证明了解开的动态和内容允许它们独立操作，以及时间 GAN 反转来检索视频运动并将其从一个内容或身份传输到另一个内容或身份，而无需进一步预处理，例如 |
| SynergyNet: Bridging the Gap between Discrete and Continuous Representations for Precise Medical Image Segmentation Authors Vandan Gorade, Sparsh Mittal, Debesh Jha, Ulas Bagci 近年来，连续潜在空间 CLS 和离散潜在空间 DLS 深度学习模型被提出用于医学图像分析，以提高性能。然而，这些模型遇到了独特的挑战。 CLS 模型捕获复杂的细节，但由于强调低级特征，因此在结构表示和鲁棒性方面往往缺乏可解释性。相反，DLS 模型凭借其结构化的潜在空间提供了可解释性、鲁棒性以及捕获粗粒度信息的能力。然而，DLS 模型在捕获细粒度细节方面的功效有限。为了解决 DLS 和 CLS 模型的局限性，我们提出了 SynergyNet，这是一种新颖的瓶颈架构，旨在增强现有的编码器解码器分割框架。 SynergyNet 无缝集成离散和连续表示以利用互补信息，并成功保留学习表示中的细粒度和粗粒度细节。我们对多器官分割和心脏数据集的广泛实验表明，SynergyNet 优于其他最先进的方法，包括 TransUNet dice 分数提高了 2.16 ，Hausdorff 分数分别提高了 11.13 。在评估皮肤病变和脑肿瘤分割数据集时，我们观察到皮肤病变分割的交集分数比并集分数显着提高了 1.71，脑肿瘤分割的交集分数显着提高了 8.58。 |
| Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis Authors Shangbang Long, Siyang Qin, Yasuhisa Fujii, Alessandro Bissacco, Michalis Raptis 我们提出了 Hierarchical Text Spotter HTS ，这是一种用于词级文本识别和几何布局分析联合任务的新颖方法。 HTS 可以识别图像中的文本并识别其 4 级层次结构字符、单词、线条和段落。所提出的 HTS 具有两个新颖的组件： 1 统一检测器多边形 UDP，用于生成文本行的贝塞尔曲线多边形；以及用于在检测到的行之间进行段落分组的亲和力矩阵 2 行到字符到单词 L2C2W 识别器，用于将行分割成字符并进一步合并他们又回到了言语中。 |
| Heterogeneous Federated Learning with Group-Aware Prompt Tuning Authors Wenlong Deng, Christos Thrampoulidis, Xiaoxiao Li Transformer 在各种机器学习任务中取得了显着的成功，促使其广泛采用。在本文中，我们探讨了它们在联邦学习 FL 背景下的应用，特别关注各个客户端拥有不同本地数据集的异构场景。为了满足 FL 的计算和通信需求，我们利用预先训练的 Transformer 并使用高效的提示调整策略。我们的策略引入了学习共享提示和小组提示的概念，从而能够同时获取通用知识和小组特定知识。此外，提示选择模块为每个输入分配个性化的组提示，使全局模型与每个客户端的数据分布保持一致。这种方法使我们能够训练一个单一的全局模型，该模型可以自动适应各种本地客户端数据分布，而不需要本地微调。通过这种方式，我们提出的方法有效地弥合了联邦学习中的全局模型和个性化本地模型之间的差距，并超越了缺乏适应以前未见过的客户的能力的替代方法。 |
| Edge AI-Based Vein Detector for Efficient Venipuncture in the Antecubital Fossa Authors Edwin Salcedo, Patricia Pe aloza 评估静脉的状况和可见度是在肘前窝获得静脉通路之前的关键步骤，这是抽血或进行静脉注射治疗的常见程序。尽管医生在静脉插管方面技术精湛，但由于液体潴留、年龄、超重、深色肤色或糖尿病，他们通常很难对静脉可见度低的患者进行手术。最近，一些研究提出将近红外 NIR 成像和深度学习 DL 技术相结合来进行前臂静脉分割。尽管它们已经表现出令人信服的结果，但由于进行静脉穿刺的便携性和精度要求，它们的使用相当有限。在本文中，我们旨在通过三种策略为缩小这一差距做出贡献。首先，我们引入了一个新的基于 NIR 的前臂静脉分割数据集，该数据集包含从 1,008 名静脉可见程度较低的受试者收集的 2,016 张标记图像。其次，我们提出了一种改进的 U Net 架构，该架构将静脉专门定位在受检查患者的肘前窝区域。最后，在测试了四种常见的嵌入式微型计算机和四种常见的量化模式后，将所提出的架构的压缩版本部署在定制的便携式静脉查找设备内。实验结果表明，使用动态范围量化压缩并部署在 Raspberry Pi 4B 卡上的模型产生了最佳的执行时间和精度平衡，分别为 5.14 FPS 和 0.957 的延迟和 Intersection over Union IoU 。 |
| TBDLNet: a network for classifying multidrug-resistant and drug-sensitive tuberculosis Authors Ziquan Zhu, Jing Tao, Shuihua Wang, Xin Zhang, Yudong Zhang 本文提出应用一种新颖的深度学习模型 TBDLNet 来识别 CT 图像，以自动对耐多药和药物敏感结核病进行分类。选择预先训练好的ResNet50来提取特征。使用三个随机神经网络来缓解过度拟合问题。三个 RNN 的组合用于通过多数投票来提高鲁棒性。所提出的模型通过五折交叉验证进行评估。本文选取了五个指标，分别是准确度、灵敏度、精密度、F1分数、特异度。 TBDLNet 分别实现了 0.9822 准确度、0.9815 特异性、0.9823 精确度、0.9829 灵敏度和 0.9826 F1 分数。 TBDLNet适用于对耐多药结核病和药物敏感结核病进行分类。 |
| Artifact-Robust Graph-Based Learning in Digital Pathology Authors Saba Heidari Gheshlaghi, Milan Aryal, Nasim Yahyasoltani, Masoud Ganji 整个载玻片图像 WSI 是使用先进扫描仪放置在载玻片上的组织的数字化图像。 WSI 的数字处理具有挑战性，因为它们是十亿像素图像并以多分辨率格式存储。 WSI 的一个常见挑战是，在存储载玻片并将其数字化期间，扰动伪影是不可避免的。这些扰动包括运动（通常由放置期间的载玻片移动引起）以及由于染色化学品和数字化扫描仪的质量的变化而导致的色调和亮度的变化。在这项工作中，提出了一种新颖的稳健学习方法来解释这些工件。由于 WSI 的大小和分辨率以及考虑邻域信息，需要基于图的方法。我们使用图卷积网络 GCN 从表示 WSI 的图中提取特征。通过降噪器和池化层，WSI 中扰动的影响得到控制，输出之后是一个变压器，用于对不同级别的前列腺癌进行分类。为了比较所提出方法的功效，在没有任何扰动的情况下使用 WSI 训练和测试没有降噪器的模型，然后在 WSI 中引入不同的扰动并通过带有降噪器的网络传递。 |
| er.autopilot 1.0: The Full Autonomous Stack for Oval Racing at High Speeds Authors Ayoub Raji, Danilo Caporale, Francesco Gatti, Andrea Giove, Micaela Verucchi, Davide Malatesta, Nicola Musiu, Alessandro Toschi, Silviu Roberto Popitanu, Fabio Bagni, Massimiliano Bosi, Alexander Liniger, Marko Bertogna, Daniele Morra, Francesco Amerotti, Luca Bartoli, Federico Martello, Riccardo Porta 印地自动驾驶挑战赛 IAC 历史上首次汇聚了九支自动驾驶赛车队，在开轮赛车上使用独立开发的软件，以前所未有的速度进行正面交锋。本文介绍了 TII EuroRacing TII ER 团队使用的完整软件架构，涵盖了避开静态障碍物、执行主动超车以及达到 75 m s 270 km h 以上速度所需的所有模块。除了与感知、规划和控制相关的最常见模块之外，我们还讨论用于车辆动力学建模、仿真、遥测和安全的方法。 |
| ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese Authors Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen 近年来，视觉问答VQA因其多样化的应用而受到广泛关注，包括智能汽车辅助、帮助视障人士以及使用自然语言查询的文档图像信息检索。 VQA 需要有效整合问题和图像中的信息以生成准确的答案。 VQA 神经模型在大规模数据集上取得了显着进展，主要关注英语等资源丰富的语言。为了解决这个问题，我们引入了 ViCLEVR 数据集，这是一个开创性的集合，用于评估越南语的各种视觉推理能力，同时减少偏见。该数据集包含超过 26,000 张图像和 30,000 个问答对 QA，每个问题都经过注释以指定所涉及的推理类型。利用该数据集，我们对当代视觉推理系统进行了全面分析，提供了有关其优点和局限性的宝贵见解。此外，我们还推出了 PhoVIT，一种全面的多模态融合，可根据问题识别图像中的对象。该架构有效地利用变压器来实现对文本和视觉数据的同时推理，在早期模型阶段合并两种模式。实验结果表明，我们提出的模型在四个评估指标上实现了最先进的性能。 |
| Multivessel Coronary Artery Segmentation and Stenosis Localisation using Ensemble Learning Authors Muhammad Bilal, Dinis Martinho, Reiner Sim, Adnan Qayyum, Hunaid Vohra, Massimo Caputo, Taofeek Akinosho, Sofiat Abioye, Zaheer Khan, Waleed Niaz, Junaid Qadir 冠状动脉造影分析是心脏病专家执行的一项常见临床任务，通过评估动脉粥样硬化斑块的积累来诊断冠状动脉疾病 CAD。本研究介绍了一种端到端机器学习解决方案，该解决方案是我们使用 X 射线血管造影 imagEs ARCADE 挑战进行 MICCAI 2023 基于自动区域的冠状动脉疾病诊断解决方案的一部分，旨在为多支冠状动脉分割和潜在狭窄病变定位的解决方案制定基准来自 X 射线冠状动脉血管造影。我们采用了稳健的基线模型训练策略来逐步提高性能，包括二进制类预训练、多血管分割、使用类频率加权数据加载器进行微调、使用基于 F1 的课程学习策略 F1 CLS 进行微调的五个连续阶段，以及最后的多目标血管造影视图基于分类器的集体适应。与许多其他医学成像程序不同，这项任务表现出显着程度的观察者间差异。，使其特别适合自动分析。我们的集成模型使用加权集成方法组合了六个基线模型的输出，我们的分析表明，该方法可以使所提出的解决方案的预测准确性提高一倍。最终的预测被进一步细化，目标是纠正错误分类的斑点。我们的解决方案在冠状动脉分割方面取得了 37.69 的平均 F1 分数，在狭窄定位方面取得了 39.41 的平均 F1 分数，使我们的团队在两个排行榜上均排名第五。 |
| AutoCT: Automated CT registration, segmentation, and quantification Authors Zhe Bai, Abdelilah Essiari, Talita Perciano, Kristofer E. Bouchard 计算机断层CT成像的处理和分析对于基础科学发展和临床应用都具有重要意义。在 AutoCT 中，我们提供了一个全面的管道，集成了 3D CT 扫描的端到端自动预处理、配准、分割和定量分析。工程化流程通过高效的正向和逆向映射，利用微分同胚变换，实现基于图集的 CT 分割和量化。从变形场提取的局部特征允许下游统计学习，这可以促进医学诊断。 |
| GROOViST: A Metric for Grounding Objects in Visual Storytelling Authors Aditya K Surikuchi, Sandro Pezzelle, Raquel Fern ndez 对为一系列图像生成的故事进行正确评估（通常称为视觉讲故事的任务）必须考虑多个方面，例如连贯性、语法正确性和视觉基础。在这项工作中，我们重点评估接地程度，即故事与图像中显示的实体有关的程度。我们分析当前的指标，这些指标都是为此目的和一般视觉文本对齐而设计的。鉴于观察到的缺点，我们提出了一种新颖的评估工具 GROOViST，它考虑了跨模态依赖性、时间错位（实体在故事中出现的顺序和图像序列可能不匹配的事实）以及人类对视觉基础的直觉。 |
| Alzheimers Disease Diagnosis by Deep Learning Using MRI-Based Approaches Authors Sarasadat Foroughipoor, Kimia Moradi, Hamidreza Bolhasani 阿尔茨海默病是最常见的神经系统痴呆症，它会削弱记忆等多种大脑过程，并最终导致死亡。临床研究使用磁共振成像来诊断 AD。深度学习算法能够从输入的原始数据中进行模式识别和特征提取。由于早期诊断和分期检测是提高患者护理和治疗效果的最关键因素，因此 MRI 图像的深度学习算法最近可以在早期阶段诊断医疗状况并识别阿尔茨海默病的特定症状。因此，我们的目标是在本研究中分析 2021 年至 2023 年期间使用基于 MRI 的深度学习算法专注于 AD 诊断的五项具体研究。 |
| Improving Traffic Density Forecasting in Intelligent Transportation Systems Using Gated Graph Neural Networks Authors Razib Hayat Khan, Jonayet Miah, S M Yasir Arafat, M M Mahbubul Syeed, Duc M Ca 这项研究深入探讨了图神经网络在交通预测领域的应用，这是智能交通系统的一个关键方面。准确的交通预测对于此类系统中的行程规划、交通控制和车辆路线等功能至关重要。在流量预测的背景下，探讨了三种著名的 GNN 架构：图卷积网络、图样本和聚合以及门控图神经网络。每个架构的方法都经过彻底检查，包括层配置、激活函数和超参数。主要目标是最大限度地减少预测误差，GGNN 成为这三个模型中最有效的选择。该研究概述了每种架构的结果，通过均方根误差和平均绝对误差 MAE 阐明了它们的预测性能。假设结果揭示了有趣的见解，GCN 显示 RMSE 为 9.10，MAE 为 8.00，而 GraphSAGE 显示出改进，RMSE 为 8.3，MAE 为 7.5。 |
| Advancing Brain Tumor Detection: A Thorough Investigation of CNNs, Clustering, and SoftMax Classification in the Analysis of MRI Images Authors Jonayet Miah, Duc M Cao, Md Abu Sayed3, Md Siam Taluckder, Md Sabbirul Haque, Fuad Mahmud 脑肿瘤由于其在所有年龄段的高患病率和死亡率而构成了重大的全球健康挑战。早期检测脑肿瘤对于有效治疗和患者预后至关重要。本研究对使用卷积神经网络 CNN 使用磁共振成像 MRI 图像检测脑肿瘤进行了全面调查。该数据集由健康个体和脑肿瘤患者的 MRI 扫描组成，经过处理并输入 CNN 架构。采用 SoftMax 全连接层对图像进行分类，准确率达到 98 。为了评估 CNN 的性能，使用了另外两个分类器：径向基函数 RBF 和决策树 DT，准确率分别为 98.24 和 95.64。该研究还引入了一种用于特征提取的聚类方法，提高了 CNN 的准确性。灵敏度、特异性和精度与准确性一起综合评估网络的性能。值得注意的是，SoftMax 分类器展示了分类器中最高的准确率，在测试数据上达到了 99.52 的准确率。所提出的研究有助于医学图像分析深度学习领域的不断发展。 |
| Chinese Abs From Machine Translation |

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

【AI视野·今日CV 计算机视觉论文速览 第278期】Mon, 30 Oct 2023

Daily Computer Vision Papers

【AI视野·今日CV 计算机视觉论文速览第278期】Mon, 30 Oct 2023