【论文阅读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

题目:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

作者:Ben Mildenhall Pratul P. Srinivasan Matthew Tancik Jonathan T. Barron Ravi Ramamoorthi Ren Ng

motivation

作者想用一种隐式表示的方法实现了照片级的视角合成效果;从整个计算机视觉的领域来讲,NeRF所解决的就是计算机视觉最根本的问题,它所展示的效果是计算机视觉领域最根本的进步。

methods

NeRF核心思想: 人眼或者相机观察三维场景的过程是,给定一个相机的pose(位置和旋转),根据三维场景参数,可以渲染得到一张投影图片。NeRF实现的其实就是这样的一个过程,将三维场景用MLP表示,前向的网络计算就和人眼或者相机观察三维场景的过程一致,当整个计算过程都可微的时候,通过渲染图片的监督,便可以对MLP进行优化,"学"出三维场景的"隐式"参数。

Neural Radiance Field Scene Representation:

可以把它看做是一个函数:如果我们从一个角度向一个静态空间发射一条射线,我们可以查询到这条射线在空间中每个点(x,y,z)的密度σ,以及该位置在射线角度(θ,φ), 下呈现出来的颜色c(R,G,B)

Volume Rendering with Radiance Fields:

体渲染,直观地说,我们知道相机的焦点,焦点和像素的连线可以连出来一条射线,我们可以对这条射线上所有的点的颜色做某种求和就可以得到这个像素的颜色值。理论上,我们可以对这条射线经过空间上的每个点的密度(只和空间坐标相关)和颜色(同时依赖空间坐标和入射角)进行某种积分就可以得到每个像素的颜色。当每个像素的颜色都计算出来,那么这个视角下的图像就被渲染出来了.

Pipeline

NeRF工作的过程可以分成两部分:三维重建和渲染;

  • 三维重建部分本质上是一个2D到3D的建模过程,利用3D点的位置(x,y,z)及方位视角(θ,φ)作为输入,通过多层感知机(MLP)建模该点对应的颜色color(c)及体素密度volume density(σ),形成了3D场景的"隐式表示"
  • 渲染部分本质上是一个3D到2D的建模过程,渲染部分利用重建部分得到的3D点的颜色及不透明度沿着光线进行整合得到最终的2D图像像素值。
  • 在训练的时候,利用渲染部分得到的2D图像,通过与Ground Truth做L2损失函数(L2 Loss)进行网络优化

因为神经网络是可微分的,选取的体渲染方法是可微分;体渲染得到的图片和原图计算MSE Loss。整个过程可端到端地用梯度回传来优化非常漂亮。

experiment

【完结】

相关推荐
胖咕噜的稞达鸭16 天前
如何写好一个skill
人工智能·数码相机
Hello-FPGA16 天前
CameraLink相机模拟器 信号源加速激光雷达系统算法开发
数码相机
cqbzcsq16 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
凌晨一点的秃头猪16 天前
论文阅读 GTI(Graph-based Tree Index): 面向高维空间最近邻搜索的动态图-树混合索引结构
论文阅读
双翌视觉16 天前
机器视觉系统为何离不开光学滤光片?
人工智能·数码相机·视觉检测·制造
有Li16 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
大模型最新论文速读16 天前
06-16 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
3DVisionary16 天前
XTDIC-VG视频引伸计技术原理解析:金属疲劳测试的“非接触革命“
python·数码相机·音视频·非接触测量·xtdic-vg·视频引伸计·金属疲劳测试
墨绿色的摆渡人16 天前
论文笔记(一百三十七)Learning Dual-Arm Push and Grasp Synergy in Dense Clutter
arm开发·论文阅读
_李小白17 天前
【智能驾驶:视觉感知后处理 阅读笔记】Day4: 相机成像模型与畸变
笔记·数码相机