computer vision

SP FA17 天前
人工智能·深度学习·计算机视觉·computer vision·视频生成·3d 可控视频生成
[读论文] Compositional 3D-aware Video Generation with LLM Director近年来,通过强大的生成模型和大规模互联网数据,文本到视频生成领域取得了显著进展。然而,在生成视频中精确控制单个概念(如特定角色的动作和外观、视角的移动)方面,仍存在巨大挑战。为此,我们提出了一种新的范式,先分别生成每个概念的 3D 表示,然后利用大语言模型(LLM)和 2D 扩散模型的先验知识将它们组合起来。具体来说,对于输入的文本提示,我们的方法分为三个阶段:
cstutor8 个月前
computer vision
CS4186 Assignment 2Assignment 2CS4186 Computer Vision and Image Processing
Adenialzz1 年前
computer vision
LVM Sequential Modeling Enables Scalable Learning for Large Vision ModelsTL; DR:本文提出一种纯视觉的序列建模方法 LVM,不需要任何文本数据。通过 visual sentences 的形式,统一图像/视频/标注/3D数据,使用 VQGAN 将视觉数据编码为 token,然后进行预测下一个 token 的自回归式训练。在测试时,通过构建合适的 visual prompt,可以处理各种各样的视觉任务,展现出一定的视觉智能。
澳鹏Appen1 年前
人工智能·机器学习·计算机视觉·音视频·computer vision
视频标注是什么?和图像数据标注的区别?视频数据标注是对视频剪辑进行标注的过程。进行标注后的视频数据将作为训练数据集用于训练深度学习和机器学习模型。这些预先训练的神经网络之后会被用于计算机视觉领域。
澳鹏Appen1 年前
人工智能·计算机视觉·computer vision
计算机视觉(Computer Vision, CV)是什么?近年来,计算机视觉 (Computer Vision,简称CV) 不断普及,已成为人工智能 (AI) 增长最快的领域之一。计算机视觉致力于使计算机能够识别和理解图像和视频中的物体和人。
澳鹏Appen1 年前
人工智能·计算机视觉·computer vision
计算机视觉和机器视觉有什么区别?人工智能是一个概念性术语,涵盖了若干特定技术。本文中,我们将探讨机器视觉(MV)和计算机视觉(CV)。二者都涉及可视化输入的摄取和解释,因此,了解这些重叠技术的优势、约束和最佳应用场景非常重要。 早在20世纪50年代,研究人员就从用于统计模式识别的简单二维成像入手,开始开发计算机视觉技术。到了1978年,麻省理工学院人工智能实验室的研究人员开发了一种自下而上的方法,从二维计算机生成的“草图”中推断出三维模型,至此,计算机视觉的实际应用才变得显而易见。从那时起,图像识别技术就被划分为不同的类别。 计算机视觉