阿里端到端全模态模型Qwen2.5-Omni开源,文本/图像/音频/视频一网打尽

阿里发布了开源Qwen2.5-Omni的端到端多模态模型,旨在感知各种模态,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

主要特点

全能创新架构:采用全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型结构

性能指标

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

开源生态:多平台开放与开发者支持

模型已同步上线 Hugging Face 、GitHub 等平台,提供完整技术文档与代码示例:

部署灵活性 :支持本地化部署(如单卡GPU)与云端API调用,开发者可快速集成至智能客服、内容创作工具;

社区赋能 :通过开源协议允许商业应用,推动多模态技术在教育、医疗等领域的落地。

应用场景:从视频通话到创意生产

实时视频通话 :结合摄像头与麦克风输入,模型可自动生成字幕、翻译语音并分析用户情绪,适用于跨国会议与在线教育;

智能内容创作 :输入图像或视频后,一键生成带语音解说的短视频脚本,降低自媒体创作门槛;

科研辅助 :解析学术论文图表并生成摘要,支持研究人员快速定位关键结论。

模型:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

github:https://github.com/QwenLM/Qwen2.5-Omni

相关推荐
说私域8 分钟前
人工智能赋能美妆零售数字化转型:基于开源AI大模型的S2B2C商城系统构建
人工智能·小程序·开源·零售
zew104099458819 分钟前
基于深度学习的手势识别系统设计
人工智能·深度学习·算法·数据集·pyqt·yolov5·训练模型
weixin_4786897619 分钟前
pytorch与其他ai工具
人工智能·pytorch·python
豆芽81920 分钟前
核函数(机器学习深度学习)
人工智能·深度学习
Liudef0630 分钟前
Stable Diffusion LoRA模型训练:图片收集与处理完全攻略
人工智能·stable diffusion
说私域35 分钟前
数智化时代下开源AI大模型驱动的新型商业生态构建——基于AI智能名片与S2B2C商城小程序的融合创新研究
人工智能·小程序·开源
不想加班的码小牛1 小时前
第4期:重构软件测试体系——生成式AI如何让BUG无所遁形
人工智能·重构·bug·集成测试
Ronin-Lotus1 小时前
深度学习篇---模型GPU训练
人工智能·pytorch·python·深度学习·paddlepaddle·并行·openmp
西瓜撞月球1 小时前
二分类与多分类
人工智能·机器学习·分类
罗西的思考2 小时前
探秘Transformer系列之(21)--- MoE
人工智能·深度学习·机器学习