阿里端到端全模态模型Qwen2.5-Omni开源,文本/图像/音频/视频一网打尽

阿里发布了开源Qwen2.5-Omni的端到端多模态模型,旨在感知各种模态,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

主要特点

全能创新架构:采用全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型结构

性能指标

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

开源生态:多平台开放与开发者支持

模型已同步上线 Hugging Face 、GitHub 等平台,提供完整技术文档与代码示例:

部署灵活性 :支持本地化部署(如单卡GPU)与云端API调用,开发者可快速集成至智能客服、内容创作工具;

社区赋能 :通过开源协议允许商业应用,推动多模态技术在教育、医疗等领域的落地。

应用场景:从视频通话到创意生产

实时视频通话 :结合摄像头与麦克风输入,模型可自动生成字幕、翻译语音并分析用户情绪,适用于跨国会议与在线教育;

智能内容创作 :输入图像或视频后,一键生成带语音解说的短视频脚本,降低自媒体创作门槛;

科研辅助 :解析学术论文图表并生成摘要,支持研究人员快速定位关键结论。

模型:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

github:https://github.com/QwenLM/Qwen2.5-Omni

相关推荐
久违 °5 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun6 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.6 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary6 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_6 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记6 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_468466856 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_468466856 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭6 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码6 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络