2026年04月07日热门模型

一、总体总结

统计概况：

模型总数：210个（本周），新增107个（对比上周47个）
时间分布：4月7日新增24个，4月6日新增41个（显示周末集中发布特征）
主体格局：Google Gemma 4系列 dominance（占据TOP榜单多数席位），国产模型（Qwopus、OmniWeaving、VoxCPM2）表现活跃，Netflix、Tencent等大厂进入开源领域

核心特征：

多模态爆发：文本-图像-视频-音频的统一处理能力成为标配
端侧优化：1-bit量化（Bonsai）、2B/4B小参数模型（Gemma 4 E2B/E4B）推动边缘部署
架构创新：MoE（混合专家）、Diffusion Language Model、1-bit量化技术并行发展

二、分类体系

按模态能力分类

类别	代表模型	特征
Any-to-Any/多模态大模型	Gemma 4系列、Holo3-35B	统一处理文本/图像/音频/视频，支持Function Calling
文本生成/LLM	Bonsai-8B、LFM2.5-350M、Qwopus3.5系列	专注推理、编程、长上下文，部分采用MoE或1-bit架构
语音合成(TTS)	OmniVoice、VoxCPM2	零样本克隆、600+语言支持、扩散语言模型架构
视频生成与编辑	VOID、OmniWeaving	物理感知编辑（对象删除）、多模态条件视频生成
量化/部署优化版	Gemma-4-GGUF系列、Bonsai-8B-gguf	4-bit/1-bit量化，适配llama.cpp/MLX

按架构创新分类

技术路线	模型	突破点
MoE架构	Gemma-4-26B-A4B、Holo3-35B-A3B	激活参数仅3.8B/3B，总参数26B/35B，推理成本大幅降低
1-bit量化	Bonsai-8B系列	1.15GB内存占用，14倍压缩比，保持70.5分基准性能
Diffusion LM	OmniVoice	扩散语言模型做TTS，RTF低至0.025
VLM for Agent	Holo3-35B-A3B	专为GUI Agent优化，OSWorld SOTA

三、关键趋势分析

1. 多模态统一化：从"支持"到"原生"

Gemma 4系列和OmniWeaving代表新一代原生多模态架构，不再是通过插件拼接模态，而是：

统一上下文窗口：256K tokens覆盖文本+视觉+音频
交错输入（Interleaved）：任意顺序混合文本/图像/视频输入
端到端训练：音频编码器（300M参数）与语言模型联合优化

2. 效率革命：1-bit与MoE的双轨突破

1-bit极致压缩 ：Bonsai-8B证明1.125 bpw（bits per weight）仍能保持竞争力，智能密度（Intelligence Density）概念兴起
MoE动态激活：26B总参数仅激活3.8B，实现"大模型能力，小模型成本"，Codeforces ELO达1718（Gemma-4-26B-A4B）

3. Agentic能力成为核心战场

工具调用：Gemma 4原生支持Function Calling；Qwopus3.5针对OpenClaw框架优化
GUI Agent：Holo3-35B-A3B在OSWorld-Verified达77.8%，用3B激活参数击败更大模型
推理模式分化：从"先想后做"（CoT）转向"边做边优化"（Act-Then-Refine，Qwopus提出）

4. 语音生成的扩散化

OmniVoice和VoxCPM2采用Diffusion Language Model替代传统自回归TTS，实现：

零样本克隆与语音设计的统一
600+语言（OmniVoice）与方言支持（VoxCPM2含中文多方言）
实时流式生成（RTF 0.025-0.3）

5. 视频生成的物理感知与精细化

物理一致性 ：VOID模型不仅删除对象，还处理物理交互（如删除人后让被压物体弹起）
多条件控制：OmniWeaving支持文本+图像+视频任意组合输入，引入MLLM进行意图推理

四、模型详细介绍

1. Gemma-4-31B-it（Google）

定位：旗舰级 dense 多模态模型，30.7B参数
核心能力 ：
- 256K上下文，支持文本/图像/视频（60秒）/音频（30秒）
- Thinking模式：可控推理开关，AIME 2026达89.2%（无工具）
- 编程能力：LiveCodeBench v6 80.0%，Codeforces ELO 2150
- 视觉：MMMU Pro 76.9%，OmniDocBench 0.131（编辑距离，越低越好）
架构：60层Transformer，混合注意力（局部滑动窗口+全局），视觉编码器550M参数
使用：Apache 2.0，支持Transformers库，需enable_thinking=True开启推理

2. Gemma-4-26B-A4B-it （Google）+ GGUF版（Unsloth）

定位：MoE架构高效模型，25.2B总参数/3.8B激活参数
优势：推理速度接近4B模型，性能接近31B dense（MMLU Pro 82.6% vs 85.2%）
GGUF量化：Unsloth提供4-bit GGUF，本地可跑，支持工具调用

3. Gemma-4-E4B-it + E2B-it（Google）

定位：端侧优化模型，E=Effective（有效参数）
- E4B：4.5B有效（8B含embedding），支持文本/图像/音频
- E2B：2.3B有效（5.1B含embedding），128K上下文
技术：Per-Layer Embeddings (PLE)技术，每层独立embedding表，降低推理内存
音频能力：仅E2B/E4B支持ASR和语音翻译（CoVoST 35.54）

4. OmniVoice（k2-fsa）

架构：基于扩散语言模型（Diffusion LM）的TTS
突破：600+语言零样本克隆，RTF 0.025（40倍实时），支持语音设计（通过自然语言描述控制年龄/性别/情绪）

5. Qwopus3.5-9B-v3 + 27B-v3（Jackrong）

基础：基于Qwen3.5的Claude蒸馏优化版
创新：
- 推理效率：HumanEval pass@1达87.80%（9B）/95.73%（27B），推理长度减少25.3%
- 范式转变：从"Reason-then-Act"转向"Act-then-Refine"，适合Agent工作流
- 工具调用：针对OpenClaw框架强化
训练：Unsloth+LoRA，响应仅训练assistant部分

6. Bonsai-8B-gguf + MLX版（PrismML）

革命性：端到端1-bit量化（GGUF Q1_0），1.15GB内存占用（FP16的1/14）
性能：平均70.5分（MMLU-R/MuSR/GSM8K等），接近Qwen3 8B（79.3分）
部署：支持CUDA/Metal/OpenCL，RTX 4090上TG128达368 tok/s（6.2倍于FP16）

7. Holo3-35B-A3B（H Company）

定位：GUI Agent专用VLM，基于Qwen3.5-35B-A3B微调
性能：OSWorld-Verified 77.8% SOTA，仅3B激活参数
场景：Web/桌面/移动端跨平台自动化，支持ScreenSpot-Pro等 grounding 任务

8. Gemma-4-31B-JANG_4M-CRACK（dealignai）

性质：Gemma-4-31B的"去限制"（abliterated）版本
技术：JANG_4M混合精度（关键层8-bit，压缩层4-bit），18GB体积
能力：HarmBench 93.7%合规（安全测试），保留原始模型能力

9. VoxCPM2（OpenBMB）

架构：2B参数的Tokenizer-free扩散自回归TTS
特色：30语言、48kHz输出、终极克隆（提供参考音频+转录文本）、实时流式（RTX 4090上RTF 0.3）

10. void-model（Netflix）

任务：视频对象与交互删除（Video Object and Interaction Deletion）
技术：基于CogVideoX-Fun-V1.5-5b，使用quadmask（4值掩码）区分删除对象/重叠区域/受影响区域/背景
物理感知：能处理对象删除后的物理后果（如被删除人持有的物体会掉落）

11. HY-OmniWeaving（Tencent）

架构：MLLM（语义解析）+ MMDiT（生成）+ VAE，基于HunyuanVideo-1.5
能力：统一视频生成（T2V/I2V/Video Editing/Reference-to-Video），支持推理增强模式（--think）
创新：Hidden States DeepStacking，提取MLLM多层隐藏状态注入生成器

12. LFM2.5-350M（LiquidAI）

定位：超轻量边缘模型，350M参数，28T tokens训练
性能：在IFEval等任务超越Gemma 3 1B，支持工具调用，313 tok/s（AMD CPU）
架构：16层（10个LIV卷积块+6个GQA块），32K上下文

13. Gemma-4-31B（基础版）

与it版相同架构，预训练版本，适合下游微调

14. Gemma-4-26B-A4B（MoE基础版）

26B MoE架构的基础版本

15. Qwopus3.5-27B-v3-GGUF

Qwopus3.5-27B的GGUF量化版，便于本地部署

16. Gemma-4-E2B（基础版）

2B级别基础模型，支持音频多模态

其他提及模型

模型	发布者	简介
Gemma-4-31B-IT-NVFP4	NVIDIA	NVFP4量化版，专为Blackwell架构优化，GPQA Diamond 75.46%
Gemma-4-E4B-Uncensored	HauhauCS	去审查版本，0/465拒绝率，提供Q2-Q8多种GGUF量化
Bonsai-8B-mlx-1bit	PrismML	MLX框架1-bit版本，适配Apple Silicon，iPhone 17 Pro Max达44 tok/s

总结

本周模型发布呈现**"大而全"与"小而精"**并行的格局：Google以Gemma 4系列定义了多模态MoE的新标准（26B A4B用3.8B激活参数实现接近31B dense的性能）；PrismML的Bonsai-8B则证明了1-bit量化的实用化；Netflix和Tencent在视频生成领域分别解决了物理一致性（VOID）和统一控制（OmniWeaving）的难题。国产模型在TTS（VoxCPM2）、Agent（Holo3）和推理优化（Qwopus3.5）等细分领域表现突出。