基于树莓派与Jetson Nano集群的实验边缘设备上视觉语言模型(VLMs)的性能评估与实践探索人工智能·计算机视觉·语言模型·自然语言处理·树莓派·多模态·jetson nano
具身智能多模态感知与场景理解:融合语言模型的多模态大模型人工智能·python·gpt·语言模型·自然语言处理·chatgpt·多模态
DDPM代码讲解【详细!!!】深度学习·stable diffusion·多模态·ddpm
腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题人工智能·音视频·多模态·大模型微调·人工智能讲师·人工智能培训·微调大模型
RORPCAP: retrieval-based objects and relations prompt for image captioning人工智能·深度学习·计算机视觉·语言模型·prompt·多模态·imagecaptioning
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读人工智能·深度学习·计算机视觉·3d·大语言模型·多模态
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
VLMs开发——基于Qwen2.5-VL 实现视觉语言模型在目标检测中的层级结构与实现方法目标检测·计算机视觉·目标跟踪·语言模型·多模态·vlms·qwen2.5-vl