阿里巴巴Qwen团队发布AI模型,可操控PC和手机

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

这周,科技界的目光几乎都被DeepSeek的R1模型吸引,但阿里巴巴并没有袖手旁观。

1月27日,阿里巴巴 Qwen团队 正式发布了一系列 全新AI模型------Qwen2.5-VL ,具备 文本解析、图像分析、视频理解 以及 远程操控PC和手机 的能力,类似于OpenAI的 Operatorhttps://github.com/QwenLM/Qwen2.5-VL/blob/main/README.md

Qwen2.5-VL:能看、能听、还能动

根据官方介绍,Qwen2.5-VL不仅能读取文件、解析视频,还能 数图像中的物体 ,甚至可以 远程控制电脑和手机

🔹 超越国际大厂?

阿里巴巴的Qwen团队声称,Qwen2.5-VL在多个评测中 超越了OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 Flash ,尤其在 视频理解、数学运算、文档解析和问答能力 上表现突出。

🔹 强大的视觉理解

Qwen2.5-VL可分析 图表、发票、表格 ,甚至能"理解" 长达数小时的视频内容 。此外,它还能 识别影视IP和各类商品 ,暗示该模型可能曾使用 受版权保护的内容 进行训练。

🔹 AI变身"遥控助手"

最令人瞩目的是Qwen2.5-VL的 跨设备控制能力

👉 在 PC端 ,该模型可以操作Linux系统,比如切换标签页(虽然当前还不够智能,无法完成复杂任务)。

👉 在 手机端 ,一位Hugging Face的技术负责人分享了一段视频,展示 Qwen2.5-VL自动打开Booking.com应用并预订机票(从重庆到北京)。

这意味着,AI未来可能不仅仅是 对话助手 ,更可能成为 真正的智能操作员,帮助用户完成各种任务!

不同版本与开源策略

Qwen2.5-VL提供了三种规格的模型:

Qwen2.5-VL-3B 和 Qwen2.5-VL-7B

👉 完全开源,开发者可自由下载、使用,无商业限制。

Qwen2.5-VL-72B(旗舰版)

👉 受 阿里巴巴自定义许可协议 限制,

👉 若月活用户超1亿 ,企业和开发者 需获得阿里巴巴的授权 才能商用。

未来展望:AI助手真的要来了?

尽管目前Qwen2.5-VL的 PC操控能力尚未成熟 ,但它已经展示了AI向 全能助手 进化的可能性。

未来,我们或许真的能看到 AI远程帮用户订票、编辑文件,甚至控制智能家居 。而中国AI公司的快速进步,正让全球科技巨头 感受到前所未有的压力

相关推荐
2301_8219199215 分钟前
深度学习(四)
pytorch·深度学习
从孑开始22 分钟前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
涛涛讲AI26 分钟前
一段音频多段字幕,让音频能够流畅自然对应字幕 AI生成视频,扣子生成剪映视频草稿
人工智能·音视频·语音识别
可触的未来,发芽的智生40 分钟前
新奇特:黑猫警长的纳米世界,忆阻器与神经网络的智慧
javascript·人工智能·python·神经网络·架构
WWZZ20251 小时前
快速上手大模型:机器学习2(一元线性回归、代价函数、梯度下降法)
人工智能·算法·机器学习·计算机视觉·机器人·大模型·slam
孤狼灬笑1 小时前
深度学习经典分类(算法分析与案例)
rnn·深度学习·算法·cnn·生成模型·fnn
AKAMAI1 小时前
数据孤岛破局之战 :跨业务分析的难题攻坚
运维·人工智能·云计算
Chicheng_MA1 小时前
算能 CV184 智能相机整体方案介绍
人工智能·数码相机·算能
Element_南笙2 小时前
吴恩达新课程:Agentic AI(笔记2)
数据库·人工智能·笔记·python·深度学习·ui·自然语言处理
倔强青铜三2 小时前
苦练Python第69天:subprocess模块从入门到上瘾,手把手教你驯服系统命令!
人工智能·python·面试