视觉大模型

杀生丸学AI1 个月前
3d·aigc·语义分割·三维重建·nerf·视觉大模型·空间智能
【三维重建】Semantic Gaussians:开放词汇的3DGS场景理解开放词汇的三维场景理解是计算机视觉中的一个重大挑战,在具体化代理和增强现实系统中有着广泛的应用。现有的方法采用神经渲染方法作为三维表示,联合优化颜色和语义特征,同时实现渲染和场景理解。本文介绍了一种基于三维高斯溅射的开放词汇场景理解方法语义高斯。我们的关键思想是 将知识从二维预训练模型提取为三维高斯模型 。与现有的方法不同,我们设计了一种通用的投影方法,将预先训练好的图像编码器映射到一个新的三维高斯的语义component ,这是基于空间关系,不需要额外的训练。我们 进一步建立了一个三维语义网络,直接从原
AI_小站3 个月前
大语言模型·ai大模型·计算机技术·大模型训练·视觉大模型·ollama·大模型应用
值得细读的8个视觉大模型生成式预训练方法大语言模型的进展催生出了ChatGPT这样的应用,让大家对“第四次工业革命”和“AGI”的来临有了一些期待,也作为部分原因共同造就了美股2023年的繁荣。LLM和视觉的结合也越来越多:比如把LLM作为一种通用的接口,把视觉特征序列作为文本序列的PrefixToken,一起作为LLM的输入,得到图片或者视频的caption;也有把LLM和图片生成模型、视频生成模型结合的工作,以更好控制生成的内容。当然2023年比较热门的一个领域便是多模态大模型,比如BLIP系列、LLaVA系列、LLaMA-Adapter系
杀生丸学AI4 个月前
3d·aigc·slam·三维重建·nerf·视觉大模型
【三维重建】近期进展(完善中)提示:以下是本篇文章正文内容,下面案例可供参考来源:1清华大学人工智能产业研究院2安阳理工大学 3清华大学4北京理工大学 项目:https://sainingzhang.github.io/project/uc-gs/
Phoenixtree_DongZhao4 个月前
视觉大模型
多模态大型语言模型的语义对齐 (浙大,新加坡国立大学,阿里巴巴)Semantic Alignment for Multimodal Large Language Models (mccartney01.github.io)
Phoenixtree_DongZhao4 个月前
视觉大模型
SPARK:面向大规模视觉语言模型的多视觉传感器感知与推理基准GitHub - top-yun/SPARK: A benchmark dataset and simple code examples for measuring the perception and reasoning of multi-sensor Vision Language models.
杀生丸学AI4 个月前
3d·aigc·三维重建·nerf·视觉大模型·高斯泼溅·稀疏重建
【三维重建】Pixel-GS:三维高斯泼溅的像素感知的梯度密度控制(去除浮点,提升精度)项目:https://pixelgs.github.io/ 标题:Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting 来源:香港大学;腾讯AI Lab
杀生丸学AI5 个月前
3d·aigc·三维重建·扩散模型·nerf·多模态大模型·视觉大模型
【三维AIGC】扩散模型LDM辅助3D Gaussian重建三维场景标题:《Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models》 来源:Glasgow大学;爱丁堡大学 连接:https://arxiv.org/abs/2406.13099
FesianXu1 年前
人工智能·llm·视觉大模型·视觉令牌化
【论文极速读】LVM,视觉大模型的GPT时刻?这一周,LVM在arxiv上刚挂出不久,就被众多自媒体宣传为『视觉大模型的GPT时刻』,笔者抱着强烈的好奇心,在繁忙工作之余对原文进行了拜读,特此笔记并留下读后感,希望对诸位读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。