技术栈
视觉理解
HyperAI超神经
13 天前
人工智能
·
ai
·
开源
·
编程语言
·
向量数据库
·
视频生成
·
视觉理解
活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解/向量数据库/AI原生编程语言
当下,AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进,让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化,还是新一代 AI 原生编程语言的出现,都在推动一个清晰的趋势——产研协同与开源生态,正在成为 AI 时代最关键的创新范式。
m0_65010824
2 个月前
计算机视觉
·
论文精读
·
视觉理解
·
视觉生成
·
多模态通用模型
·
视觉分割
·
视觉编辑
【论文精读】VITRON:统一的像素级视觉大语言模型
标题:VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
Struart_R
4 个月前
计算机视觉
·
语言模型
·
transformer
·
大语言模型
·
vlm
·
视觉理解
·
空间推理
SpatialVLM和SpatialRGPT论文解读
目录一、SpatialVLM1、概述2、方法3、实验二、SpatialRGPT1、概述2、方法3、训练方法
Nicolas893
9 个月前
语言模型
·
大模型
·
多模态
·
视觉理解
·
cogvlm
·
visionllm
·
视觉语言预训练模型
【大模型理论篇】CogVLM:多模态预训练语言模型
前两天我们在《Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought》中介绍了将ViT与推理模型结合构造多模态推理模型的案例,其中提到了VLM的应用。追溯起来就是两篇前期工作:Vision LLM以及CogVLM。
youcans_
1 年前
人工智能
·
计算机视觉
·
大语言模型
·
多模态
·
视觉理解
【微软报告:多模态基础模型】(2)视觉理解
欢迎关注【youcans的AGI学习笔记】原创作品 【微软报告:多模态基础模型】(1)从专家到通用助手 【微软报告:多模态基础模型】(2)视觉理解 【微软报告:多模态基础模型】(3)视觉生成
叶庭云
1 年前
人工智能
·
多模态大模型
·
gpt-4o
·
视觉理解
·
图片问答
视觉理解与图片问答,学习如何使用 GPT-4o (GPT-4 Omni) 来理解图像
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/OpenAI 最新发布的 GPT-4 Omni 模型,也被称为 GPT-4o,是一个多模态 AI 模型,旨在提供更加自然和全面的人机交互体验。
我是有底线的