[23] 4K4D: Real-Time 4D View Synthesis at 4K Resolution

paper | proj | code

  • 提出一种基于K-Planes的4D point cloud Representation;
  • 提出一种Hybrid appearance model,包含image blending model和SH model。其中,image blending model将3D点映射回原图中求得,SH model通过模型预测求得。
  • 提出一种可导的深度排序算法,训练时通过Pytorch计算,渲染时通过OpenGL计算,实现GPU支持的快速光栅化。
  • 提出一系列减少推理渲染的方法:
    • 提前计算点的位置、密度、颜色系数和blending系数等;
    • 减少光栅化每个像素所需要的点数;
    • 将模型从32-bit float降为16-bit

目录

摘要

方法

[Modeling Dynamic Scenes with Point Clouds](#Modeling Dynamic Scenes with Point Clouds)

[Differentiable Depth Peeling](#Differentiable Depth Peeling)

Training

Inference

实验

[Datasets and metrics](#Datasets and metrics)

[Comparison Experiments](#Comparison Experiments)

[Ablation Studies](#Ablation Studies)

[Storage analysis.](#Storage analysis.)

[Rendering Speed Analysis](#Rendering Speed Analysis)


摘要

  • 现有问题:动态场景中,渲染高分辨率图片很慢;
  • 本文:
    • 提出基于K-Planes的4D point cloud Representation,支持硬件光栅化,实现快速渲染;
    • 提出一种hybrid appearance model,在提高渲染质量的同时,保证渲染效率;
    • 设计一种可导的深度排序算法(deep peeling algorithm),实现从RGB视频中快速建模;
  • 实验证明,在一张4090 GPU上,可以实现对1080分辨率的400FPS渲染,4K分辨率的80FPS渲染。

方法

Modeling Dynamic Scenes with Point Clouds

  • 通过space-carving algorithm从视频中提取粗点云序列;
  • 点特征通过K-Planes表达,给定坐标和时间,可得特征:
  • 点特征送入Radius MLP和Density MLP,预测该点的密度和半径
  • 该点的颜色通过两个模型计算,分别是离散的image blending model和连续的SH model。
    • image blending model是指,给定空间中任意一点,可投影到输入图片上,检索对应RGB值。在本文中,多张图片检索的RGB值,通过网络预测加权系数,加权求和以得到该点的。由于检索图像与视角无关,本文仅考虑与视角最近的张图片。image blending model除系数外,可以提前计算。因此,可以在提高视觉质量的同时,不增加过多计算。
    • SH model,则是将点特征送入SH MLP,预测得到
    • 最终,该点颜色由以下公式计算:

Differentiable Depth Peeling

  • 对于像素,首先找到距离该点相机视角最近的个点。
  • 用体渲染的方式,通过个点计算该点颜色。首先计算密度,其中是将点投影到2D图像上:
  • 在训练中,本文基于PyTorch实现。在推理阶段,本文用OpenGL计算。
  • 最终,该像素点颜色:

Training

包含三个损失:

  • MSE Loss:
  • LPIPS Loss
  • Mask 损失:
  • 最终训练损失为:

Inference

通过三个方法加速推理:

  • 提前计算点位置,半径,密度,SH系数和color blending系数;
  • 将模型从32-bit floats转为16-bits,可以增加20FPS;
  • 将渲染时的超参数K从15降低为12,可以在不影响视觉质量的情况下,增加20FPS;

实验

Datasets and metrics

  • DNA-Rendering:15 FPS, 10 s, 60 views, 4K/2K相机,训练分辨率为1024 x 1224 / 1125 x 1536
  • ENeRF-Outdoor:30 FPS, 1080p相机,训练分辨率为960 x 540
  • NHR:训练分辨率为512 x 612 / 384 x 512
  • Neural3DV:训练分辨率为1352 x 1224

Comparison Experiments

Ablation Studies

  • Ablation study on the 4D embedding. w/o f
  • Ablation study on the hybrid appearance model. w/.o
  • Ablation study on loss functions.

Storage analysis.

Rendering Speed Analysis

相关推荐
标书畅畅行2 分钟前
2026 年 AI 标书工具市场观察:技术迭代与选型指南
大数据·人工智能
Luminbox紫创测控6 分钟前
氙弧老化测试全参数解析:滤镜类型、辐照度与黑标温度设定
人工智能·测试工具·安全性测试·测试标准
圣殿骑士-Khtangc6 分钟前
OpenAI GPT-5 Agent Mode 正式发布:最长24小时自主任务,AI编程智能体大战升级
人工智能
2601_9578848414 分钟前
AI赋能的内容工程学:短视频矩阵系统的多模态内容生成与量产边界
人工智能·矩阵·音视频
JEECG低代码平台15 分钟前
JimuChatBI — 首款免费开源的 Java 智能问数ChatBI平台,零成本接入,AI对话式智能分析
java·人工智能·开源·aigc·人工智能低代码
黎阳之光16 分钟前
视频孪生+空天地水工融合,黎阳之光构建智慧水利监测新范式
大数据·人工智能·物联网·算法·安全
龙正哲17 分钟前
深耕一年|梦精灵AI 3.0 提示词管理工具重大更新:全新界面+插件全面升级(团队协作模块上线)
人工智能
code 小楊18 分钟前
AI Agent Harness 深度详解:核心概念、架构原理、实战落地与工程化实践
人工智能·架构·开源
weixin_4296302622 分钟前
3.46 基于改进孪生神经网络的手机摄影视觉定位
人工智能·深度学习·神经网络
霸道流氓气质23 分钟前
SpringBoot中使用Spring AI框架集成本地Ollama实现AI快速对话完整示例
人工智能·spring boot·spring