2024 CVPR Highlight Learning-Feedback

图像增强

Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale Real-World Event-Image Dataset and Novel Approach

解决的主要问题是低光照条件下的图像增强

通过多尺度整体融合分支提取事件和图像的结构和纹理信息,并引入信噪比(Signal-to-Noise Ratio, SNR)引导的区域特征选择,以增强低SNR区域的图像

嵌入表示

Transcriptomics-guided Slide Representation Learning in Computational Pathology

试图解决的主要问题是如何在计算病理学中有效地从整个千兆像素级的全切片图像学习到有用的嵌入表示

使用ViT来编码组织学幻灯片的图像块,以及使用MLP来编码基因表达数据,通过对比学习对齐

除了对比损失外,作者还引入了表达重建目标和视觉内模态目标

事件相机

Bilateral Event Mining and Complementary for Event Stream Super-Resolution

旨在解决现有事件相机在复杂场景应用中面临的空间分辨率不足的挑战

采用双流网络分别独立处理正事件和负事件,并通过提出的双边信息交换模块促进两流之间的信息交换

扩散模型

GPLD3D: Latent Diffusion of 3D Shape Generative Models by Enforcing Geometric and Physical Priors

旨在解决现有3D形状生成模型在几何可行性和物理稳定性方面的一些关键问题

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

旨在解决现有文本到图像扩散模型在解释复杂提示时通常遇到的挑战

引入一个语义面板作为中间件,这个面板通过大型语言模型解析输入文本中的视觉概念,然后将其注入到去噪网络中,作为详细的控制信号以补充文本条件

EscherNet: A Generative Model for Scalable View Synthesis

试图解决的主要问题是如何学习一个通用的3D表示,以便于实现可扩展的视图合成

EscherNet学习与场景颜色和几何形状相关的隐式表示

3D重建

MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild

旨在解决从单目野外视频中重建多个人物的3D模型这一具有挑战性的任务

定义整个场景的分层神经表示、使用分层可微体积渲染从视频中学习该表示(为场景中的每个人定义一个3D形状和外观的隐式神经表示,这些表示在场景中是分层和交织的)

图像生成

Instruct-Imagen: Image Generation with Multi-modal Instruction

  1. 多模态指令引入

  2. 两阶段训练方法

    • 第一阶段:检索增强训练

    • 第二阶段:多模态指令微调

  3. 模型架构设计:Instruct-Imagen基于预训练的文本到图像扩散模型,通过添加一个交叉注意力层来编码多模态指令

Attention Calibration for Disentangled Text-to-Image Personalization

试图解决的问题是如何从单个参考图像中捕捉多个新颖概念

引入新的可学习修饰符与类别绑定以捕获多个概念的属性,并通过分离和加强不同类别的注意力图来减少概念间的相互影响

姿态估计

Matching 2D Images in 3D: Metric Relative Pose from Metric Correspondences

目标是在不需要额外的深度测量或场景重建信息的情况下,通过学习跨图像匹配3D坐标,实现无需尺度的相对相机姿态估计

深度估计

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

探索现代生成性扩散模型中捕获的广泛先验知识是否能够使深度估计更加准确和泛化。

Marigold是一种基于Stable Diffusion的仿射不变单目深度估计方法,它保留了丰富的先验知识

相关推荐
之歆4 小时前
Spring AI入门到实战到原理源码-MCP
java·人工智能·spring
知乎的哥廷根数学学派4 小时前
面向可信机械故障诊断的自适应置信度惩罚深度校准算法(Pytorch)
人工智能·pytorch·python·深度学习·算法·机器学习·矩阵
且去填词5 小时前
DeepSeek :基于 Schema 推理与自愈机制的智能 ETL
数据仓库·人工智能·python·语言模型·etl·schema·deepseek
待续3015 小时前
订阅了 Qoder 之后,我想通过这篇文章分享一些个人使用心得和感受。
人工智能
weixin_397578025 小时前
人工智能发展历史
人工智能
强盛小灵通专卖员5 小时前
基于深度学习的山体滑坡检测科研辅导:从论文实验到系统落地的完整思路
人工智能·深度学习·sci·小论文·山体滑坡
OidEncoder5 小时前
从 “粗放清扫” 到 “毫米级作业”,编码器重塑环卫机器人新能力
人工智能·自动化·智慧城市
Hcoco_me5 小时前
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式
人工智能·深度学习·自然语言处理·transformer·vllm
阿部多瑞 ABU5 小时前
`chenmo` —— 可编程元叙事引擎 V2.3+
linux·人工智能·python·ai写作
极海拾贝6 小时前
GeoScene解决方案中心正式上线!
大数据·人工智能·深度学习·arcgis·信息可视化·语言模型·解决方案