阿里端到端全模态模型Qwen2.5-Omni开源,文本/图像/音频/视频一网打尽

阿里发布了开源Qwen2.5-Omni的端到端多模态模型,旨在感知各种模态,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

主要特点

全能创新架构:采用全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型结构

性能指标

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

开源生态:多平台开放与开发者支持

模型已同步上线 Hugging Face 、GitHub 等平台,提供完整技术文档与代码示例:

部署灵活性 :支持本地化部署(如单卡GPU)与云端API调用,开发者可快速集成至智能客服、内容创作工具;

社区赋能 :通过开源协议允许商业应用,推动多模态技术在教育、医疗等领域的落地。

应用场景:从视频通话到创意生产

实时视频通话 :结合摄像头与麦克风输入,模型可自动生成字幕、翻译语音并分析用户情绪,适用于跨国会议与在线教育;

智能内容创作 :输入图像或视频后,一键生成带语音解说的短视频脚本,降低自媒体创作门槛;

科研辅助 :解析学术论文图表并生成摘要,支持研究人员快速定位关键结论。

模型:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

github:https://github.com/QwenLM/Qwen2.5-Omni

相关推荐
舒一笑25 分钟前
Building effective agents 建立有效的agents
人工智能
凉冰不加冰44 分钟前
大语言模型原理(Transformer架构)
语言模型
知秋丶1 小时前
大模型应用发展与Agent前沿技术趋势(下)
人工智能·python·ai agent
智驱力人工智能1 小时前
安全帽检测算法如何提升工地安全管理效率
人工智能·算法·安全·边缘计算·安全帽检测·口罩检测·安全鞋检测
即兴小索奇1 小时前
AI适老服务暖人心:AI适老机顶盒破数字鸿沟、毫米波雷达护独居安全,银发生活新保障
人工智能·ai·语音识别·商业·ai商业洞察·即兴小索奇
riveting1 小时前
技术突破引领应用革新:RK3506 开发板的嵌入式革命
人工智能·物联网·制造·明远智睿·rk3506
Lntano__y2 小时前
详细分析大语言模型attention的计算复杂度,从数学角度分析
人工智能·语言模型·自然语言处理
法迪2 小时前
【学习】Linux 内核中的 cgroup freezer 子系统
人工智能·opencv·计算机视觉
魔乐社区2 小时前
OpenAI重新开源!gpt-oss-20b适配昇腾并上线魔乐社区
人工智能·gpt·深度学习·开源·大模型
用户5191495848452 小时前
WordPress开放嵌入自动发现功能中的XSS漏洞分析
人工智能·aigc