sglang-omni [多模态大语言模型的推理与评测框架]

核心架构

复制代码
sglang_omni/          # 主要业务逻辑
├── models/           # 模型实现(Qwen3-Omni 等)
├── preprocessing/    # 多媒体预处理(视频、音频、图像)
├── serve/            # OpenAI 兼容 API 服务
└── client/           # 客户端 SDK

主要能力

模态输入 模态输出 说明
文本 + 图像 文本 MMMU 评测
文本 + 音频 文本 MMSU 评测
文本 + 视频 文本 Video-MME 评测
视频 + 音频问题 文本 Video-AMME 评测
任意 文本 + 音频 Talker(TTS)模式

关键模块说明

1. 模型层(qwen3_omni)
  • Preprocessor:负责多媒体输入的加载、缓存 key 计算、HF 处理器调用
  • ImageEncoder:视觉编码,支持图像和视频帧
  • Thinker:主干 LLM,融合多模态 embedding
  • Talker(可选):语音合成模块,实现文本→音频输出
  • Pipeline Merge :在 merge.py 中将各编码器输出对齐合并
2. 预处理层(preprocessing)
  • 视频支持 torchcodec/torchvision 双后端,自动 fallback
  • 支持从视频中提取音频(use_audio_in_video
  • 异步批量加载 URL/本地文件,基于内容哈希的缓存 key
3. 服务层(openai_api.py)
  • 兼容 OpenAI /v1/chat/completions 接口
  • 扩展参数:video_fpsvideo_max_framesvideo_min_pixels

评测体系(benchmarks)

复制代码
eval/
├── benchmark_omni_videomme.py   # Video-MME
├── benchmark_omni_videoamme.py  # Video-AMME(活动文件)
├── benchmark_omni_mmmu.py       # 图像理解
├── benchmark_omni_mmsu.py       # 音频理解
└── benchmark_omni_seedtts.py    # 语音克隆/TTS

评测维度:准确率(ACC)+ 语音一致性(WER)+ 速度(QPS/RTF)


CI 流程(test-qwen3-omni-ci.yaml)

分多 stage 并行运行,每个 stage 独立 GPU 容器:

  • Stage 1: Thinker only(基础推理)
  • Stage 8: Video-MME Talker(视频+音频输出)
  • Stage 9: Video-AMME(视频+音频输入)
  • Stage 10: Video-AMME Talker(全链路)

当前活动文件

benchmark_omni_videoamme.pyVideo-AMME 基准测试入口 ,其逻辑完全复用 run_video_eval 框架,区别在于:

  • 强制启用音频输入(enable_audio_input=True
  • 使用固定提示词 VIDEOAMME_REQUEST_TEXT(仅包含格式指令,问题内容在音频中)
相关推荐
K姐研究社7 分钟前
怎么用AI制作电商口播视频,开拍APP一键生成
人工智能·音视频
LaughingZhu27 分钟前
Product Hunt 每日热榜 | 2026-05-21
前端·人工智能·经验分享·chatgpt·html
传说故事1 小时前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
北京耐用通信1 小时前
全域适配工业场景耐达讯自动化Modbus TCP 转 PROFIBUS 网关轻松实现以太网与现场总线互通
网络·人工智能·网络协议·自动化·信息与通信
火山引擎开发者社区1 小时前
TRAE × 火山引擎 Supabase:为你的 AI 应用装上“数据引擎”
人工智能
小a彤2 小时前
GE 在 CANN 五层架构中的位置
人工智能·深度学习·transformer
前端若水2 小时前
会话管理:创建、切换、删除对话历史
前端·人工智能·python·react.js
Upsy-Daisy2 小时前
AI Agent 项目学习笔记(八):Tool Calling 工具调用机制总览
人工智能·笔记·学习
企学宝2 小时前
企学宝5月专题课程丨《OpenClaw AI 智能体实战营:从零基础部署到全场景自动化落地》
人工智能·ai·企业培训
冬奇Lab3 小时前
让 AI Agent 更可靠:Harness Engineering 与多 Agent 系统工程实践
人工智能·llm·agent