BLIP-2革新多模态预训练:QFormer桥接视觉语言,零样本任务性能飙升10.7%!人工智能·gpt·机器学习·机器人·多模态·blip·多模态大模型
视频理解新纪元!VideoChat双模架构突破视频对话瓶颈,开启多模态交互智能时代人工智能·chatgpt·大模型·多模态·世界模型·kimi·deepseek
(论文速读)从语言模型到通用智能体人工智能·计算机视觉·语言模型·自然语言处理·多模态·智能体
基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索人工智能·计算机视觉·语言模型·自然语言处理·树莓派·多模态·jetson nano
具身智能多模态感知与场景理解:融合语言模型的多模态大模型人工智能·python·gpt·语言模型·自然语言处理·chatgpt·多模态
DDPM代码讲解【详细!!!】深度学习·stable diffusion·多模态·ddpm
腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题人工智能·音视频·多模态·大模型微调·人工智能讲师·人工智能培训·微调大模型
RORPCAP: retrieval-based objects and relations prompt for image captioning人工智能·深度学习·计算机视觉·语言模型·prompt·多模态·imagecaptioning