3D Gaussian Splatting的使用

[1 下载与安装](#1 下载与安装)
[2 准备场景样本](#2 准备场景样本)
- [2.1 准备场景照片](#2.1 准备场景照片)
- - [2.1.1 采集图片](#2.1.1 采集图片)
  - [2.1.2 生成相机位姿](#2.1.2 生成相机位姿)
[3 训练](#3 训练)
[4 展示](#4 展示)

1 下载与安装

今年SIGGRAPH最佳论文，学习了一下，果然厉害，具体论文原理就不说了，一搜都有，主要是看看怎么用，自己能不能把身边的场景快速建个模。

赶紧记录下，好像这几天在这个基础上又有很多花样出来了...

我的系统是Ubuntu22.04。

开源作者已经都弄的很详细了，也有教程。

首先拉项目

git clone https://github.com/graphdeco-inria/gaussian-splatting --recursive

然后，要建conda环境，而项目已经提供了配置文件包含了需要的各版本信息，文件就是：enviornment.ymal，所以这么调用就建好环境，并激活：

python 复制代码

conda env create --file environment.yml
#文件里给环境的名字固定叫 gaussian_splatting
conda activate gaussian_splatting

此时呢，虽然建好了，但是呢也报错了，仔细分析了error，是因为安装项目里的submodules里的两个项目报错了，类似这样的报错：

/usr/include/c++/11/bits/std_function.h:435:145: error: parameter packs not expanded with '...':

435 | function(_Functor&& __f) | ^ /usr/include/c++/11/bits/std_function.h:435:145: note: '_ArgTypes' /usr/include/c++/11/bits/std_function.h:530:146: error: parameter packs not expanded with '...': 530 | operator=(_Functor&& __f) | ^ /usr/include/c++/11/bits/std_function.h:530:146: note: '_ArgTypes'

查了半天以为是g++版本不对，有的说要将到版本10，还有说要改c++文件源码。我没敢改，再找了下，发现我的cuda版本是11.5，而该项目要求的是11.8，于是我就升级了一下，具体怎么升级，见我之前写的一篇升级和切换CUDA版本。

升级完CUDA，就手动再安装这两个子模块：

python 复制代码

pip install submodules/diff-gaussian-rasterization
pip install submodules/simple-knn

都没问题，成功安装~

2 准备场景样本

准备拿会议室整个屋子做一次尝试，看看能不能建出个模来。

2.1 准备场景照片

2.1.1 采集图片

根据原理吧，就需要这个场景中所有位置所有角度的图像，所以这个准备过程多仔细就能决定最终模型的效果。

我试了很多次，觉得拍视频最好，完了再抽帧。

因为训练的照片要分辨率统一，相机参数、光照等看着都比较统一才好。

另外，建议分辨率推荐1080p，至少720p。再退一步，至少保证宽或高有一个能到720 ，不然训练出来的效果不好，这是我的个人经验。

拍视频的时候，一定不要在一个位置转的拍，要缓慢走动，边走边转，上下左右，然后再走回来，这个路线根据场景要设计好，目的就是在任何位置上都有任何角度的照片。这只能尝试体会了。。。

然后，有了视频，就能通过抽帧拿到图片了，想要效果可以，我建议500张起，多的话我只试到2000张，再多我也没尝试。

怎么抽帧呢，就用ffmpeg

比如，先建一个data目录，data目录里一定要建个input文件夹，名字必须是这个。

python 复制代码

ffmpeg -i room.mp4 -r 3 -f image2 input/%06d.jpg

-i就是输入视频，

-r就是帧率，控制抽的图片数量

后面input/%60d.jpg ，图片名字最终是 000001.jpg, 000002.jpg这样的格式。

最终在data/input下就有了一堆图片

2.1.2 生成相机位姿

首先呢，系统里要先安装colmap，使用源码装，具体怎么装，见我之前的文章：
Colmap在Linux下的安装

装好了呢，就在gaussian splatting 项目目录下，运行convert.py

python 复制代码

python convert.py -s data

这里 -s 要传入数据目录，一定写data这个目录级别（input在这个目录下）

这时用的是CPU跑的，多等会儿，最终就在data目录下生成一堆目录和文件，包括相机位姿。

3 训练

前面都OK了，就开始训练了。

注意：如果训练图片比较多，比如超过1000张了，那要先给系统设置一下同时打开的文件数上限，因为默认的数太小了，会报错：

OSError: [Errno 24] Too many open files:

所以先临时调大一下上限：

ulimit -n 10000

1w一般就够了，这个设置重启电脑后就失效了。想要永久有效，搜一下就知道了。

然后运行：

python 复制代码

python train.py -s data -m data/output

-s还是一样，要写到data这个目录级别

-m 是输出文件夹，就写data下的output，output目录会自动创建的

整个训练是30000步，在7000步的时候会自动保存一个中间模型。

运行时间的话我举个我的测试例子：

分辨率 1920x1080,939张照片，convert.py的时间是二十几分钟，train.py的时间一共是15分钟。

GPU显存占用22GB，训练得到的ply文件 156MB。

4 展示

该项目也提供了展示的软件，在SIBR_viewers目录里：

进去要编译安装一下这个软件。

编译过程因为有东西下不下来，会出错，得想办法，之后有空单独简单记录一下。

这个软件也要用GPU跑，我就在Ubuntu上跑的，最终安装的目录在SIBR_viewers/install/bin里，所以就进目录里运行：

复制代码

install/bin/SIBR_gaussianViewer_app -m /home/xxxx/data/output

-m 就是给上面训练后的output目录就行了。

有用的模型就一个，就是30000步里的那个Ply文件。

我这会议室效果展示，就不录屏了，来几个角度的照片吧：

我其实弄的也没那么仔细，但是效果还挺厉害，如果不动的话，就和照片一样。

这个模型出来，和传统模型其实不一样，不好弄成obj fbx啥的，就是它这算法直接渲染的。至于怎么在产品或者其他场景里用，后面有空再说，我已经尝试了一个在web里打开的demo了，只是没那么流畅而已。