视频任务的隐式神经表征
1. 基础概念:图像存储的范式转换
传统方法与新兴方法的本质区别在于如何"记忆"数据。
- 显式表征 (Explicit Representation):
- 原理: 将图像存储为离散的二维网格(即像素矩阵)。
- 特点: 分辨率固定,放大后会出现锯齿或马赛克(如 JPEG, PNG)。
- 隐式表征 (Implicit Representation):
- 原理: 放弃像素网格,寻找一个连续的数学映射函数。输入坐标 ( x , y ) (x, y) (x,y),输出对应像素的颜色 ( R , G , B ) (R, G, B) (R,G,B)。
- 特点: 图像被定义为连续的函数,理论上支持无限分辨率的平滑采样。
2. 核心技术:隐式神经表征 (INR)
由于现实图像极其复杂,无法用简单的解析代数式表示,因此引入深度学习模型来拟合该函数。
- 实现方式: 使用多层感知机 (MLP) 作为函数载体。
- 训练目标: 彻底打破"泛化"思维,目标是让网络对单张图像进行绝对过拟合。
- 结果: 训练完成后,神经网络的权重参数 θ \theta θ 就等价于这张图像的数据。
3. 关键突破:位置编码 (Positional Encoding)
普通的 MLP 在拟合图像时存在严重的缺陷。
- 痛点 (谱偏置 Spectral Bias): 神经网络倾向于学习低频信号(平滑过渡),难以拟合高频信号(锐利边缘、纹理),导致生成的图像极其模糊。
- 解决方案: 在坐标数据输入网络前,利用高频正弦和余弦函数对其进行升维映射。
- 公式示例: γ ( p ) = ( sin ( 2 0 π p ) , cos ( 2 0 π p ) , ... ) \gamma(p) = (\sin(2^0 \pi p), \cos(2^0 \pi p), \dots) γ(p)=(sin(20πp),cos(20πp),...)
- 作用: 强制网络感知高频空间,从而精准重建复杂的图像细节。
4. 架构演进:从图像到视频 (NeRV)
将 INR 扩展到视频领域时,传统的逐像素推理会带来不可接受的计算开销。NeRV (Neural Representations for Videos) 对此进行了架构重构。
- 摒弃逐像素计算: 放弃 ( x , y , t ) → ( R , G , B ) (x, y, t) \rightarrow (R, G, B) (x,y,t)→(R,G,B) 的高频前向传播。
- NeRV 核心架构:
- 输入: 仅输入当前帧的时间索引 t t t(附加位置编码)。
- 特征映射: 通过浅层 MLP 将时间特征映射为低维特征图。
- 上采样重建: 结合卷积神经网络 (CNN),逐步将特征图上采样,直接输出一整张 H × W × 3 H \times W \times 3 H×W×3 的完整视频帧。
- 优势: 极大地提升了视频解码的实时性。
5. 实际落地:基于 NeRV 的典型视频任务
将视频转换为神经网络权重后,传统的视频处理任务转化为对模型参数的操作。
- 视频压缩 (Video Compression):
- 逻辑: 视频压缩转化为模型压缩。
- 手段: 通过网络剪枝 (Pruning)、权重极低比特量化 (Quantization) 和熵编码,将模型体积缩减到极致。存储的权重文件大小即为压缩后的视频大小。
- 视频插帧 (Video Interpolation):
- 逻辑: 由于网络学习到的是关于时间 t t t 的连续流形,输入时间 t t t 可以是小数。
- 手段: 在推理阶段,输入介于已知帧之间的时间戳(例如 t = 1.5 t = 1.5 t=1.5),网络利用连续的隐空间表示,自动生成物理过渡自然的中间帧,无需传统光流计算。