阿里云通义千问开源第二波!大规模视觉语言模型Qwen-VL上线魔搭社区

通义千问开源第二波!8月25日消息,阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。在主流的多模态任务评测和多模态聊天能力评测中,Qwen-VL取得了远超同等规模通用模型的表现。

Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到"五官全开"的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。多模态能够提升大模型对世界的理解程度,充分拓展大模型的使用场景。

视觉是人类的第一感官能力,也是研究者首先想赋予大模型的多模态能力。继此前推出M6、OFA系列多模态模型之后,阿里云通义千问团队又开源了基于Qwen-7B的大规模视觉语言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL及其视觉AI助手Qwen-VL-Chat均已上线ModelScope魔搭社区,开源、免费、可商用。

用户可从魔搭社区直接下载模型,也可通过阿里云灵积平台访问调用Qwen-VL和Qwen-VL-Chat,阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

Qwen-VL可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景。

比如,一位不懂中文的外国游客到医院看病,不知怎么去往对应科室,他拍下楼层导览图问Qwen-VL"骨科在哪层""耳鼻喉科去哪层",Qwen-VL会根据图片信息给出文字回复,这是图像问答能力;再比如,输入一张上海外滩的照片,让Qwen-VL找出东方明珠,Qwen-VL能用检测框准确圈出对应建筑,这是视觉定位能力。

Qwen-VL是业界首个支持中文开放域定位的通用模型,开放域视觉定位能力决定了大模型"视力"的精准度,也即,能否在画面中精准地找出想找的事物,这对于VL模型在机器人操控等真实应用场景的落地至关重要。

Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,并通过设计训练过程,让模型具备对视觉信号的细粒度感知和理解能力。Qwen-VL支持的图像输入分辨率为448,此前开源的LVLM模型通常仅支持224分辨率。在Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中,Qwen-VL取得了同等尺寸开源LVLM的最好效果。为了测试模型的多模态对话能力,通义千问团队构建了一套基于GPT-4打分机制的测试集"试金石",对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

8月初,阿里云开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat,成为国内首个加入大模型开源行列的大型科技企业。通义千问开源模型刚一上线就广受关注,当周冲上HuggingFace趋势榜单,不到一个月在GitHub收获3400多星,模型累计下载量已突破40万。

开源地址:

ModelScope魔搭社区:

Qwen-VL 通义千问-VL-预训练

Qwen-VL-Chat 通义千问-VL-Chat

模型体验:通义千问-多模态对话-Demo

HuggingFace

Qwen-VL Qwen/Qwen-VL · Hugging Face

Qwen-VL-Chat Qwen/Qwen-VL-Chat · Hugging Face

GitHub

GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

技术论文地址:

https://arxiv.org/abs/2308.12966

相关推荐
蝸牛ちゃん1 小时前
云计算三大服务模式深度解析:IaaS、PaaS、SaaS
云原生·系统架构·云计算·软考高级·saas·paas·iaas
大模型最新论文速读3 小时前
指令微调时,也要考虑提示损失
人工智能·深度学习·语言模型·自然语言处理·llama
火山引擎开发者社区18 小时前
ByteBrain x 清华 VLDB25|时序多模态大语言模型 ChatTS
人工智能·语言模型·自然语言处理
勤奋的知更鸟19 小时前
标准化模型格式ONNX介绍:打通AI模型从训练到部署的环节
人工智能·语言模型
Liudef0621 小时前
大语言模型的极限:知识、推理与创造力的边界探析
人工智能·语言模型·自然语言处理
Jamence1 天前
多模态大语言模型arxiv论文略读(153)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
莫彩1 天前
【大模型推理论文阅读】Enhancing Latent Computation in Transformerswith Latent Tokens
论文阅读·人工智能·语言模型
崔高杰1 天前
微调性能赶不上提示工程怎么办?Can Gradient Descent Simulate Prompting?——论文阅读笔记
论文阅读·人工智能·笔记·语言模型
SelectDB技术团队1 天前
森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
elasticsearch·阿里云·doris