视觉大模型

AI_小站2 个月前
大语言模型·ai大模型·计算机技术·大模型训练·视觉大模型·ollama·大模型应用
值得细读的8个视觉大模型生成式预训练方法大语言模型的进展催生出了ChatGPT这样的应用,让大家对“第四次工业革命”和“AGI”的来临有了一些期待,也作为部分原因共同造就了美股2023年的繁荣。LLM和视觉的结合也越来越多:比如把LLM作为一种通用的接口,把视觉特征序列作为文本序列的PrefixToken,一起作为LLM的输入,得到图片或者视频的caption;也有把LLM和图片生成模型、视频生成模型结合的工作,以更好控制生成的内容。当然2023年比较热门的一个领域便是多模态大模型,比如BLIP系列、LLaVA系列、LLaMA-Adapter系
杀生丸学AI2 个月前
3d·aigc·slam·三维重建·nerf·视觉大模型
【三维重建】近期进展(完善中)提示:以下是本篇文章正文内容,下面案例可供参考来源:1清华大学人工智能产业研究院2安阳理工大学 3清华大学4北京理工大学 项目:https://sainingzhang.github.io/project/uc-gs/
Phoenixtree_DongZhao2 个月前
视觉大模型
多模态大型语言模型的语义对齐 (浙大,新加坡国立大学,阿里巴巴)Semantic Alignment for Multimodal Large Language Models (mccartney01.github.io)
Phoenixtree_DongZhao2 个月前
视觉大模型
SPARK:面向大规模视觉语言模型的多视觉传感器感知与推理基准GitHub - top-yun/SPARK: A benchmark dataset and simple code examples for measuring the perception and reasoning of multi-sensor Vision Language models.
杀生丸学AI3 个月前
3d·aigc·三维重建·nerf·视觉大模型·高斯泼溅·稀疏重建
【三维重建】Pixel-GS:三维高斯泼溅的像素感知的梯度密度控制(去除浮点,提升精度)项目:https://pixelgs.github.io/ 标题:Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting 来源:香港大学;腾讯AI Lab
杀生丸学AI4 个月前
3d·aigc·三维重建·扩散模型·nerf·多模态大模型·视觉大模型
【三维AIGC】扩散模型LDM辅助3D Gaussian重建三维场景标题:《Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models》 来源:Glasgow大学;爱丁堡大学 连接:https://arxiv.org/abs/2406.13099
FesianXu1 年前
人工智能·llm·视觉大模型·视觉令牌化
【论文极速读】LVM,视觉大模型的GPT时刻?这一周,LVM在arxiv上刚挂出不久,就被众多自媒体宣传为『视觉大模型的GPT时刻』,笔者抱着强烈的好奇心,在繁忙工作之余对原文进行了拜读,特此笔记并留下读后感,希望对诸位读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。