7B 模型搞定 AI 视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用

深夜重磅!阿里发布并开源首个端到端全模态大模型------

通义千问 Qwen2.5-Omni-7B,来了。

仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。

堪称 7B 模型的全能冠军。

你的 iPhone 搭载的很可能就是它!

现在打开 Qwen Chat,就能直接和它实时进行视频或语音交互:

在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆。

首创 Thinker-Talker 双核架构

目前官方已放出 Qwen2.5-Omni 技术 Blog 和论文。

Qwen2.5-Omni 采用通义团队首创的全新架构------Thinker-Talker 双核架构

其中,Thinker 就像 "大脑",负责处理和理解来自文本、音频、视频等多模态的输入信息,生成高层语义表征以及对应的文本内容。

Talker 则更像 "嘴巴",以流式的方式接收由 Thinker 实时输出的语义表征与文本,并流畅地合成离散语音 tokens。

具体来说,Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取。

而 Talker 采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享 Thinker 的全部历史上下文信息。因此,整个架构作为一个紧密结合的单一模型运行,支持端到端的训练和推理。

与此同时,团队还提出了一种新的位置编码算法 TMRoPE (Time-aligned Multimodal RoPE)以及 Position Embedding (位置嵌入)融合音视频技术

TMRoPE 编码多模态输入的三维位置信息,即多模态旋转位置嵌入(M-RoPE),并结合绝对时间位置,通过将原始旋转嵌入分解为时间、高度和宽度三个部分实现。

另外值得一提的是,从技术层面来看,Qwen2.5-Omni 和一般的视频 / 语音理解模型以及其相应的视频 / 语音对话的 AI 功能,也有本质性区别。

在传统语音理解大模型的人机交互场景里,一般运用 ASR(Automatic Speech Recognition,自动语音识别)技术,把人类语音转换为文字文本,随后将其交给大语言模型处理,最终生成的内容借助 TTS(Text-to-Speech,语音合成)技术转化为语音反馈给用户。

而视频理解模型是基于图片、视频进行大模型理解,并以文字形式输出反馈。

这两种模型均属于相互独立的单链路模型。在一些 AI 应用中,甚至会串联多个模型来实现类似功能,如此一来,链路变得更长,效率大打折扣。

Qwen2.5-Omni-7B 的特点在于,它原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出

也就是说,一个模型就能通过 "看"、"听"、"阅读" 等多种方式来综合思考。

所以 Qwen2.5-Omni 得以在一系列同等规模的单模态模型权威基准测试中,拿下最强全模态性能,在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的音频(Audio)或视觉语言(VL)模型。

抢先看到 Apple Intelligence?

一个月前,阿里公开确认与苹果合作,宣布通义千问将为国行 iPhone 用户提供 AI 功能,此消息一经披露,便在科技圈引发热议。

而这次 Qwen2.5-Omni 开源,就是奔着端侧部署来的,7B 尺寸使其具备直接嵌入手机的可行性,仿佛提前看到了 Apple Intelligence,让大家看到多模态大模型上手机都能有哪些效果。

不只是苹果,据量子位了解,这种端侧部署能力已吸引超 90% 国产手机品牌接入通义千问,包括 OPPO、vivo、荣耀、传音等,还有众多汽车品牌、AI 硬件产品选择与之携手。

为啥都选通义千问?

梳理通义千问的最新发展动态,答案便不难理解。

首先,通义千问 Qwen 目前已稳居全球最大 AI 大模型族群。

仅在最近一个月的时间里,就接连推出了一系列具有竞争力的模型:推理模型 Max 旗舰版 QwQ-Max-Preview、视频生成模型 Wan 2.1、推理模型 QwQ-32B、视觉语言模型 Qwen2.5-VL-32B-Instruct......

实际上,2023 年至今,阿里通义团队已累计开源 200 多款模型,涵盖从 0.5B 到 110B 全尺寸范围,模型类型覆盖文本生成、视觉理解与生成、语音理解与生成、文生图及视频模型等全模态领域,应用场景也极为丰富。

在海内外开源社区中,通义千问 Qwen 衍生模型数量更是一路飙升,现已超过 10 万,超越 Llama 系列。

根据 Hugging Face 在 2 月 10 日发布的最新全球开源大模型榜单,排名前十的开源大模型无一例外,全部是基于通义千问 Qwen 开源模型二创的变体模型。

其次,阿里巴巴通过开源等一系列积极举措,成功构建起一个丰富且活跃的大模型生态。

阿里不仅将开源进行到底,更向大模型公司提供了全方位的服务支持,其中包括算力资源以及开发工具等,阿里云已成为中国大模型领域的公共 AI 算力底座。

截至 2025 年 2 月中旬,阿里魔搭社区 ModelScope 的模型总量已超 4 万个,服务超 1000 万开发者。

那么通义千问 Qwen 团队下一步要干啥?

期待听到您的反馈,并看到您使用 Qwen2.5-Omni 开发的创新应用。

在不久的将来,将着力增强模型对语音指令的遵循能力,并提升音视频协同理解能力。还将持续拓展多模态能力边界,发展全面的通用模型。

感兴趣的友友不如一起来上手试试吧~

**Qwen Chat:**chat.qwenlm.ai

**Hugging Face:**huggingface.co/Qwen/Qwen2....

**ModelScope:**modelscope.cn/models/Qwen...

**DashScope:**help.aliyun.com/zh/model-st...

**GitHub:**github.com/QwenLM/Qwen...

**Demo 体验:**modelscope.cn/studios/Qwe...

欢迎在评论区留下你的想法!

--- ---

相关推荐
Learn-Share_HY1 分钟前
[Python]如何利用Flask搭建一個Web服務器,並透過Ngrok訪問來實現LINE Bot功能?
linux·人工智能·python·ubuntu·flask·ollama·ngrok
花果山-马大帅22 分钟前
我的机器学习学习之路
人工智能·python·算法·机器学习·scikit-learn
尺度商业1 小时前
郭英成以茶会友对话李开复,探讨AI科技赋能
人工智能·科技
国科安芯1 小时前
汽车电气架构中的电源架构
人工智能·嵌入式硬件·fpga开发·架构·汽车
郝YH是人间理想1 小时前
OpenCV基础——梯度计算、边缘检测、图像金字塔
开发语言·人工智能·python·opencv·计算机视觉
生信碱移1 小时前
细胞内与细胞间网络整合分析!神经网络+细胞通讯,这个单细胞分析工具一箭双雕了(scTenifoldXct)
人工智能·经验分享·深度学习·神经网络·机器学习·数据分析·数据可视化
白雪讲堂2 小时前
GEO(生成引擎优化)实施策略全解析:从用户意图到效果追踪
大数据·人工智能·搜索引擎·ai·deepseek
songx_992 小时前
计算机视觉初步(环境搭建)
人工智能·计算机视觉
yolo大师兄2 小时前
基于YOLOv8深度学习的PCB缺陷检测识别系统【python源码+GUI界面+数据集+训练代码+登录界面】
人工智能·python·深度学习·yolo·计算机视觉