阿里端到端全模态模型Qwen2.5-Omni开源,文本/图像/音频/视频一网打尽

阿里发布了开源Qwen2.5-Omni的端到端多模态模型,旨在感知各种模态,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。

主要特点

全能创新架构:采用全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

模型结构

性能指标

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

开源生态:多平台开放与开发者支持

模型已同步上线 Hugging Face 、GitHub 等平台,提供完整技术文档与代码示例:

部署灵活性 :支持本地化部署(如单卡GPU)与云端API调用,开发者可快速集成至智能客服、内容创作工具;

社区赋能 :通过开源协议允许商业应用,推动多模态技术在教育、医疗等领域的落地。

应用场景:从视频通话到创意生产

实时视频通话 :结合摄像头与麦克风输入,模型可自动生成字幕、翻译语音并分析用户情绪,适用于跨国会议与在线教育;

智能内容创作 :输入图像或视频后,一键生成带语音解说的短视频脚本,降低自媒体创作门槛;

科研辅助 :解析学术论文图表并生成摘要,支持研究人员快速定位关键结论。

模型:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

github:https://github.com/QwenLM/Qwen2.5-Omni

相关推荐
achi0102 分钟前
Ubuntu 24 Desktop LTS 部署 AI 智能体 OpenClaw
人工智能·ai agent·openclaw·openclaw 安装·openclaw 部署·ubuntu openclaw·agent 部署
吴佳浩 Alben5 分钟前
CUDA_VISIBLE_DEVICES、多进程与容器化陷阱
人工智能·pytorch·语言模型·transformer
用户27042728381214 分钟前
排查 OpenClaw token 暴涨:MEMORY.md 藏了83行废话,3个Cron任务静默失败
人工智能
郑同学zxc16 分钟前
机器学习19-tensorflow4.2
人工智能·机器学习
zxsz_com_cn21 分钟前
设备预测性维护方案设计的关键要素
大数据·人工智能
格林威22 分钟前
工业相机参数解析:曝光时间与运动模糊的“生死博弈”
c++·人工智能·数码相机·opencv·算法·计算机视觉·工业相机
KG_LLM图谱增强大模型27 分钟前
EICopilot:基于LLM智能体和大规模知识图谱的企业信息智能搜索与探索系统
人工智能·知识图谱
GISer_Jing28 分钟前
阿里开源纯前端浏览器自动化 PageAgent,[特殊字符] 浏览器自动化变天啦?
前端·人工智能·自动化·aigc·交互
大模型任我行40 分钟前
腾讯:揭示评估幻觉并构建知识驱动新范式
人工智能·语言模型·自然语言处理·论文笔记
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-03-21
人工智能·经验分享·深度学习·神经网络·产品运营