技术栈

qwen2.5-vl

X.Cristiano
22 天前
多模态·qwen2.5-vl
多模态大模型 Qwen2.5-VL 的学习之旅Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。