阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频!

炸裂!阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ------Qwen2-VL,而且一口气发布了20亿参数和70亿参数两个版本,还开放了最强720亿参数版本的API!

小伙伴们可能要问了,这个Qwen2-VL到底有多厉害?

01、 Qwen2-VL有多厉害?

· 看得清,看得懂: Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比,都难不倒它~

**· 20分钟长视频也不怕:**Qwen2-VL 能理解超过 20 分钟的视频,可以用来做高质量的视频问答、对话、内容创作等等。这意味着,无论是在线学习、技术支持,还是任何需要对视频内容进行理解的场合,Qwen2-VL 都可以成为得力助手。

· 可操作手机、机器人等的Agent: Qwen2-VL 还能跟手机、机器人等设备结合,实现自动操作!它强大的推理和决策能力,加上对视觉环境和文本指令的理解,让它成为真正的"智能管家"

· 多语言支持,全球用户都能用: 除了英语和中文,Qwen2-VL 现在还支持识别图像中的多种语言文本,包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等,真正做到了面向全球用户!

02、 三个版本

这款新模型有三个不同参数的版本,分别是 Qwen2-VL-72B(720亿参数)、Qwen2-VL-7B 和 Qwen2-VL-2B。其中,7B 和2B 版本在开源宽松的 Apache2.0许可证下提供,允许企业随意将它们用于商业目的。

不过,最大的72B 版本目前还没有公开,只能通过专门的许可证和 API 获取。

03、 案例展示

目前,阿里已经展示了Qwen2-VL的多个实际应用案例,例如,对一大段视频进行详细解读:

用户:请详细描述一下视频。

Qwen2-VL:视频开始时,一名男子对着镜头说话,后面是一群人坐在控制室里。然后镜头切换到两个漂浮在空间站内的男子,可以看到他们对着镜头说话。这些人似乎是宇航员,他们穿着太空服。

空间站里充满了各种设备和机械,镜头四处移动以显示空间站的不同区域。这些人继续对着镜头说话,他们似乎在讨论他们的使命和正在执行的各种任务。总的来说,该视频让人们对太空探索的世界和宇航员的日常生活有了一个有趣的了解。

用户还可以基于视频继续提问,两位宇航员穿的衣服是什么颜色的?Qwen2-VL回答:两名宇航员穿着蓝色和黑色的衣服。

产品入口:

https://qwenlm.github.io/blog/qwen2-vl/

在线demo:

https://huggingface.co/spaces/Qwen/Qwen2-VL

*西安觉醒元宇宙AI,是专注线上AI培训、AI绘画辅导、AI开发服务的专业教育平台!

▍扫描下方二维码进入AI交流学习群,获取超多AI前沿知识!
相关推荐
cdut_suye5 分钟前
Linux工具使用指南:从apt管理、gcc编译到makefile构建与gdb调试
java·linux·运维·服务器·c++·人工智能·python
开发者每周简报25 分钟前
微软的AI转型故事
人工智能·microsoft
古希腊掌管学习的神28 分钟前
[机器学习]sklearn入门指南(1)
人工智能·python·算法·机器学习·sklearn
普密斯科技1 小时前
手机外观边框缺陷视觉检测智慧方案
人工智能·计算机视觉·智能手机·自动化·视觉检测·集成测试
四口鲸鱼爱吃盐1 小时前
Pytorch | 利用AI-FGTM针对CIFAR10上的ResNet分类器进行对抗攻击
人工智能·pytorch·python
lishanlu1361 小时前
Pytorch分布式训练
人工智能·ddp·pytorch并行训练
日出等日落1 小时前
从零开始使用MaxKB打造本地大语言模型智能问答系统与远程交互
人工智能·语言模型·自然语言处理
三木吧2 小时前
开发微信小程序的过程与心得
人工智能·微信小程序·小程序
云边有个稻草人2 小时前
AIGC与娱乐产业:颠覆创意与生产的新力量
aigc·娱乐
whaosoft-1432 小时前
w~视觉~3D~合集5
人工智能