尝试用gsplat对自己的数据进行3D高斯泼溅训练

前文提到,在Windows系统上,可以用gsplat进行3D高斯泼溅的训练,并训练公开的数据集,能够取得不错的效果。

本篇文章将尝试将自己拍摄的数据,转换成gsplat所支持的格式,以支持训练。

数据转换

要进行数据转换,首先看 gsplat的文档[1],但翻完发现,它压根没写怎么进行数据转换。

于是找到该项目的前身 nerfstudio 的文档[2],才找到一丝线索。

下面就尝试用 nerfstudio 对视频数据进行转换。

nerfstudio转换

首先用uv安装环境,文档内容较老,推荐用 Python 3.8。

b 复制代码
uv venv --python 3.8 .venv
.\.venv\Scripts\activate

然后安装核心依赖:

b 复制代码
uv pip install nerfstudio
uv pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu121

下载安装colmap[3]:

注意必须下载3.11.1,最新版本会有接口兼容性问题。

下载后解压,把这个E:\colmap-x64-windows-cuda\bin(对应的bin目录)添加到环境变量。

处理图片/视频可以用这个命令:

复制代码
ns-process-data {images, video} --data {DATA_PATH} --output-dir {PROCESSED_DATA_DIR}

DATA_PATH为数据路径,PROCESSED_DATA_DIR为输出路径,示例用法:

复制代码
ns-process-data video --data dataset/VID_20251208_095303.mp4 --output-dir data/room/

运行时遇到问题,输入的是 4164 帧视频,它默认提取了 321 帧,覆盖程度不足,COLMAP 只成功求出 3 张的相机位姿(0.93%)。

因此,尝试添加num-frames-target参数,要求它去抽取更多帧:

复制代码
ns-process-data video --data dataset/VID_20251208_095303.mp4 --output-dir data/room/ --num-frames-target 2082

结果依然不行,只有 886 张图片(21.32%)计算成功,覆盖率仍过低。

排查原因,视频是随手在房间里录制的,估计是白墙元素太多了,白墙的无效信息太多,对特征提取来说是灾难。

后面换用了一组室外拍摄的视频,仍然效果不好,用 nerfstudio 处理的效果不及预期,导致后面无法继续进行。

RealityScan转换

除了用 nerfstudio 去计算colmap之外,还可以用 RealityScan 去计算colmap,RealityScan 是 Epic 下面免费的闭源专业软件,算法成熟度会高于前者。

由于 RealityScan 不支持视频输入,可以先用 FFmpeg 将视频进行抽帧,下面的命令是按照 2 帧抽一帧的方式进行提取。

复制代码
ffmpeg -i input.mp4 -vf "select='not(mod(n\,2))',setpts=N/FRAME_RATE/TB" -vsync vfr images/frame_%04d.jpg

将图片导入 RealityScan,进行对齐,虽然 RealityScan 也没有完全把所有图像都算准,但大部分图像还是算对的。

导出colmap数据

得到 cameras.txt, images.txt, points3D.txt 三个文件。

ns-process-data 对文件的格式有严格要求,因此需要下面的命令,将 txt 转换成 bin 格式。

复制代码
colmap model_converter --input_path dataset/colmap_txt --output_path dataset/colmap_binary --output_type BIN

转换得到 cameras.bin, images.bin, points3D.bin。

此外还要导出相机的内外参的csv文件。

图像数据、colmap、内外参文件都准备好之后,就可以用ns去再转换成标准数据集:

复制代码
ns-process-data realitycapture --data dataset/images --csv dataset/camera.csv --output-dir data/room

数据训练

得到标准数据集之后,就可以参考上一篇文章的内容,配置 gsplat,用相同的方式的方式进行训练。

它的训练似乎和图片数量有关系,在2060显卡的电脑上,跑标准数据集没问题,但自己的数据集图片数量较多,跑了一会就爆显存。

查了一番,也没找到有效的调节方案,遂弃坑。

参考

1\] https://docs.gsplat.studio/main \[2\] https://docs.nerf.studio \[3\] https://github.com/colmap/colmap/releases/tag/3.11.1

相关推荐
北京耐用通信3 分钟前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区6 分钟前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤33 分钟前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水1 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
Upsy-Daisy1 小时前
AI Agent 项目学习笔记(八):Tool Calling 工具调用机制总览
人工智能·笔记·学习
企学宝1 小时前
企学宝5月专题课程丨《OpenClaw AI 智能体实战营:从零基础部署到全场景自动化落地》
人工智能·ai·企业培训
冬奇Lab2 小时前
让 AI Agent 更可靠:Harness Engineering 与多 Agent 系统工程实践
人工智能·llm·agent
放下华子我只抽RuiKe52 小时前
React 从入门到生产(四):自定义 Hook
前端·javascript·人工智能·深度学习·react.js·自然语言处理·前端框架
想你依然心痛2 小时前
HarmonyOS 6(API 23)实战:基于悬浮导航、沉浸光感与HMAF的“文思智脑“——PC端AI智能体沉浸式智能写作工作台
人工智能·ar·harmonyos·ai写作
冬奇Lab2 小时前
一天一个开源项目(第108篇):Andrej Karpathy Skills - 用一个 CLAUDE.md 文件修复 LLM 编码的四个顽疾
人工智能·开源·资讯