浅论3DGS溅射模型在VR眼镜上的应用

摆烂仙君小课堂开课了，本期将介绍如何手搓VR眼镜，并将随手拍的电影变成3D视频。

一、3DGS模型介绍

3D 高斯模型是基于高斯函数构建的用于描述三维空间中数据分布概率的模型，高斯函数在数学和物理领域有着广泛应用，其在 3D 情境下的拓展为我们理解和处理三维数据提供了强大工具。在三维空间中，高斯模型的概率密度函数形式较为复杂，涉及多个参数。中心点坐标 (μ_x, μ_y, μ_z) 决定了分布的中心位置，即数据最可能聚集的点。而协方差矩阵则描述了数据在各个方向上的分布范围和相关性。协方差矩阵是一个对称的 3×3 矩阵，其对角线元素 (σ_x², σ_y², σ_z²) 分别代表数据在 x、y、z 轴上的方差，方差越大，说明数据在该轴方向上的分散程度越高；非对角线元素 σ_xy、σ_xz、σ_yz 反映了不同坐标轴之间的协方差，衡量了两个变量之间的线性相关程度，比如 σ_xy 为正，表明 x 和 y 方向的数据变化呈正相关趋势。

该模型在诸多领域都有重要应用，其中最重要的就是可以恶搞自己的室友，如图。

但是我们本期要讲的是如何通过3D溅射模型把普通视频变成3D视频。

二、VR眼镜盒子

VR眼镜盒子是一种较为基础且便捷的虚拟现实设备。其外观通常小巧轻便，便于携带和使用，主体部分多为一个类似眼镜的框架结构，中间有可容纳显示屏的区域，两侧设有绑带或夹子等固定装置，用于将设备稳固地佩戴在头上，确保使用者在使用过程中不会轻易滑落或移位。它的工作原理在于借助智能手机等具备显示功能的设备来作为显示屏，将手机放入盒子中特定的位置后，通过盒子内部的光学镜片等元器件对手机屏幕上的画面进行放大和聚焦，营造出一种身临其境的立体视觉效果。当使用者转动头部时，借助手机内部的陀螺仪等传感器，可实时感知头部的运动方向和角度变化，并将这些信息反馈给正在运行的VR应用，从而使得画面能够相应地进行切换或调整，让使用者仿佛置身于一个全方位、沉浸式的虚拟场景之中，无论是观看3D电影、体验虚拟旅游还是进行一些简单的VR游戏，都能提供较为出色的沉浸感体验。不过，由于其成本相对较低，技术也较为基础，在画面的清晰度、视场角以及帧率等方面可能不如一些高端的VR头显设备，但其亲民的价格和便捷的操作方式使其在普通消费者群体中有着较为广泛的应用，为大众接触和体验虚拟现实技术提供了一个入门级的便捷选择。

假设透镜的焦距为f，透镜与显示屏之间的距离为d，显示屏上的图像高度为h，经过透镜放大后的像高度为H。根据透镜成像公式：

f1=u1+v1

其中，u 为物体到透镜的距离（即显示屏到透镜的距离），v 为像到透镜的距离。对于VR眼镜盒子来说，透镜通常被设计为靠近显示屏的一侧，因此 u 是一个较小的正值。根据成像公式，可以求出像距 v。

像的放大率 M 可以表示为：

M=hH=uv

通过调整透镜的焦距 f 和物体距 u，可以控制像的放大率和成像位置，从而优化用户的视觉体验。VR眼镜盒子利用双眼视觉和视差原理来营造三维立体效果。人类的双眼分别位于头部的两侧，两眼之间的距离（称为瞳距）导致两眼看到的物体图像存在细微差异，这种差异称为视差。大脑通过对两眼图像的融合和处理，能够感知物体的深度和立体感。在VR眼镜盒子中，左右两个透镜分别将两幅略有差异的图像（通常由VR应用生成）投射到用户的左右眼中，模拟了人眼观察真实世界时的视差效果。这种视差信息被大脑处理后，用户就会感受到虚拟场景的深度和立体感。

三、博主的实操记录

1.手搓VR眼镜

VR眼镜的技术原理在之前已经讲的很清楚了，无非就是双目视差罢了，所以实现起来也很简单，找个空纸壳然后折叠成下图这个样子，然后放上两个放大镜片就好了，是不是有手就行。

什么？说没有放大镜片，没事儿，仙君教你：在塑料瓶的上半部分中裁出两个圆片，然后将这两个圆片用胶水粘起来，里面放满水，一个放大镜片这不就做出来了吗？还不会的同学就自己上网买一个吧，也就十来块的样子，没钱的可以在评论区找博主报销。

2.普通视频转成VR视频

这种VR视频比较普通，就是将一个视频变成两个分视角的图片，多的不说，上干货：

python 复制代码

import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt

# 加载预训练的深度估计模型和相关文件
def load_depth_model():
    # 模型和配置文件路径（假设已下载对应的模型文件）
    model_path = "models/midas_v2_1_small.onnx"
    # 加载模型
    depth_model = cv.dnn.readNet(model_path)
    return depth_model

# 深度估计函数
def estimate_depth(frame, depth_model):
    # 将图片转换为模型需要的格式
    img = cv.cvtColor(frame, cv.COLOR_BGR2RGB)
    img = cv.resize(img, (256, 256), interpolation=cv.INTER_AREA)
    # 创建blob
    blob = cv.dnn.blobFromImage(img, 1/255., (256, 256), (123.675, 116.28, 103.53), swapRB=True, crop=False)
    # 设置输入并前向传播
    depth_model.setInput(blob)
    depth_map = depth_model.forward()
    depth_map = depth_map.reshape((256, 256))
    # 归一化深度图
    depth_map = cv.normalize(depth_map, None, 0, 1, cv.NORM_MINMAX)
    return depth_map

# 根据深度图计算视差图
def compute_disparity(depth_map, max_disparity=50):
    # 计算视差图，简单的将深度图转换为视差图
    # 实际应用中可能需要更复杂的计算
    disparity_map = (1.0 - depth_map) * max_disparity
    return disparity_map.astype(np.int32)

# 根据视差图生成右视图
def generate_right_view(left_view, disparity_map):
    height, width = left_view.shape[:2]
    # 将视差图扩展到与图像相同的尺寸
    disparity_map_img = cv.resize(disparity_map, (width, height), interpolation=cv.INTER_NEAREST)
    # 创建右视图
    right_view = np.zeros_like(left_view)
    # 沿x轴移动每个像素，根据视差图的值（简单的水平位移）
    for y in range(height):
        for x in range(width):
            disp = disparity_map_img[y, x]
            new_x = x - disp
            if new_x >= 0 and new_x < width:
                right_view[y, new_x] = left_view[y, x]
            else:
                # 处理边界情况，使用原图的边缘像素填充
                if new_x < 0:
                    right_view[y, 0] = left_view[y, x]
                elif new_x >= width:
                    right_view[y, width - 1] = left_view[y, x]
    return right_view

# 读取视频文件
input_video_path = 'input_video.mp4'
output_video_path = 'output_3d_video.mp4'

# 打开视频文件
cap = cv.VideoCapture(input_video_path)
if not cap.isOpened():
    print("Error: Could not open video.")
    exit()

# 获取视频属性
frame_width = int(cap.get(cv.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv.CAP_PROP_FRAME_HEIGHT))
fps = cap.get(cv.CAP_PROP_FPS)

# 定义视频输出
fourcc = cv.VideoWriter_fourcc(*'MP4V')
out = cv.VideoWriter(output_video_path, fourcc, fps, (frame_width * 2, frame_height))

# 加载深度估计模型
depth_model = load_depth_model()

# 处理视频的每一帧
while cap.isOpened():
    ret, frame = cap.read()
    if not ret:
        break

    # 估计深度
    depth_map = estimate_depth(frame, depth_model)

    # 计算视差图
    disparity_map = compute_disparity(depth_map)

    # 生成右视图
    right_view = generate_right_view(frame, disparity_map)

    # 创建左右分屏的3D视频帧
    stereo_frame = cv.hconcat([frame, right_view])

    # 写入输出视频文件
    out.write(stereo_frame)

    # 显示处理后的帧（可选）
    cv.imshow('3D Video', cv.resize(stereo_frame, (frame_width * 2 // 2, frame_height // 2)))

    # 按'q'键退出循环
    if cv.waitKey(1) & 0xFF == ord('q'):
        break

# 释放资源
cap.release()
out.release()
cv.destroyAllWindows()

以上代码使用深度估计模型来估计每一帧图像的深度，然后根据深度图计算视差图，最后根据视差图生成右视图。需要注意的是，这种方法的效果可能不是非常好，实际应用中可能需要更复杂的视差计算方法，例如使用立体匹配算法等。