【NeRF和NLP】一些观察感悟,碎碎念

NeRF的paper,有几个感想:

  1. NeRF读的时候感觉和diffusion思路特别像,训练目标是一个很小很小的子步骤,大大简化了训练难度
  2. NeRF建模的是"真实"世界,其用模型隐含的存储了真实世界的体素(场)模型,而模型输出二维图片的方法本质上和模型所建模的内容无关(采用的是体素渲染的方式)。 【对比大语言模型】大语言模型也是隐藏的建模了人类知识,但是大语言的模型输出并没有和模型的内容独立开来。
  3. NeRF存储真实世界的体素信息,但真实体素信息是没办法被直接监督训练的,所以采用了真实世界的在特定输入下(某个相机视角)的输出(平面投影的多组2D图片输出)进行监督训练 【对比大语言模型】大语言模型建模的真实是什么呢?是人类的知识库。大语言模型的知识在训练过程中也没被直接监督优化,取而代之的是,通过这些知识在特定输入下(上下文语境)的输出(语言输出),进行监督训练。 【对比现代控制系统】估算系统内部状态的采用的方法就是观察其在特定输入下产生输出的关系。
  4. 【考虑到NLP的幻觉问题】NeRF是在一组图片中训练,得到这个世界的真实,这就需要保证这个训练集合是一致的。Tim他测试的在同一时间拍下了一组子弹时间照片在NeRF训练的结果特别差,输出会出现模糊、碎片和错误,这些问题产生的原因是他们并没有严格的做到拍摄时间是确切相同的,而且被拍摄对象还在高速运动。这就导致了NeRF的训练数据不是同一个"真实"【联系】这样输出的碎片感觉就是NLP领域的幻觉,大模型用于监督的输出来源过于广泛,很难保证是同一个"真实",这个"真实"随着时间变化,随着阐述者变化。【解决】NeRF最简单的解决办法是,换更好的数据集带来统一的"真实"。但是这个代价对于训练大语言模型来说就是清洗数据集,这个过于昂贵。很多解决幻觉的方法是变着法子prompt,既然是"真实"下幻觉的碎片,相同语义不同的prompt其实是在这个"真实"附近采样,如果是幻觉的碎片,那么输出将会不稳定,这也是Major Vote可以某种程度上改善幻觉的一种解释。【开始胡说八道】如果直接check训练好的NeRF模型的体素密度,我们可以轻松发现哪里的"真实"有碎片,甚至可以通过删除/调整这些碎片改善模型。这个对应到NLP又很像知识编辑。我们知道现实物体应该有怎么样的形状,这个先验可以指导我们,但是我们不知道知识的形状。阿巴阿巴阿巴
相关推荐
霍格沃兹测试开发学社-小明4 分钟前
测试开发技术路线全新升级:在云原生与AI时代构建核心竞争力
大数据·人工智能·云原生
jinxinyuuuus6 分钟前
TikTok Watermark Remover:用户行为模拟、动态Token认证与视频流的去噪
网络·人工智能·计算机视觉·架构
说私域10 分钟前
基于链动2+1模式AI智能名片S2B2C商城小程序的微商运营内容研究
大数据·人工智能·小程序
free-elcmacom11 分钟前
机器学习项目实战——鸢尾花大作战
人工智能·机器学习
一尘之中12 分钟前
冰海通航的科技密码:葫芦岛港的破冰实践与智慧港口建设
人工智能·科技·ai写作
longze_713 分钟前
Uigenius:革新 UI/UX 设计的 AI 利器
人工智能·ui·ai·ux·prototype·uigenius
新智元14 分钟前
30 年数学难题,AI 仅 6 小时告破!陶哲轩:ChatGPT 们都失败了
人工智能·openai
自不量力的A同学14 分钟前
Mureka V7.6 和 Mureka O2 模型正式发布
人工智能
TechMasterPlus14 分钟前
调用千问大模型服务
人工智能·python
菠菠萝宝15 分钟前
【Java手搓OpenManus】-5- 工具系统设计
java·开发语言·人工智能·openai·agent·manus